안녕하세요. 원형석 과학전문가입니다.
빅데이터에 대한 정의부터 생각해보셔야 하는데요.
세상에는 수많은 데이터가 있습니다.
이것들을 그냥 저장한다고 그게 다 정보가 되는 건 아니죠.
이 데이터들을 가공하여 어떤 유의미한 "정보"로 변환하는 작업을 빅데이터로 볼 수 있습니다.
방법론을 이야기 하셨는데
저는 목적론이 더 중요하다고 생각합니다.
빅데이터의 기본은 일단 데이터를 쌓는 일인데 세상에 수많은 정보중에 어떤 데이터를 쌓을 것인가
이것을 결정하는 것도 일종의 목적성이 부여되어 있는 것입니다.
예를 들어 "네이버에서 검색어를 모두 저장해두었다" 라면 이 정보는 검색의 경향에 대한 파악에 사용될 수 있겠죠.
이 정보들을 모아둔 이유는 검색의 경향, 검색으로부터 어떤 다른 의미 분석 등 여러 목적으로 사용될 수 있습니다.
이 분석에 RDB를 사용할지, Hadoop 같은 것을 사용할지, R 을 사용할지, AI 딥러닝을 사용하든 이런 것은 사실상 '목표'가 나오고 나서 가장 좋은 방법론을 찾을 뿐입니다.
공장에서 각종 센서 데이터를 수집해서 저장한다고 가정해보죠. (IOT 개념입니다만)
왜 이런 정보를 수집했을까요?
목적으로 보면 센서 정보가 전체적인 공장의 상태를 파악하는데 유용하게 쓰일 것이기 때문이죠.
이들 센서 데이터를 몇개월 혹은 몇년치를 모아서 경향 분석을 했더니 일정 패턴으로 상승하더라...
이러면 예를 들어 압축기, 냉각기의 증설이 필요하다.. 이런 결론을 뽑아내게 되겠죠.
빅데이터에서 방법론은 크게 중요하지 않다고 생각합니다. 그것을 뽑아내는 알고리즘은 그 해당 영역마다 특성을 가지고 존재하는 법이고, 그 알고리즘이 존재하는 이유는 거꾸로 어떤 정보를 뽑아내기 위한 최적의 '방법'을 찾을 뿐, 그 알고리즘 존재의 가치는 '목적'에 있다고 생각되네요.