빅데이터 정확한 설명이 뭔가요? 데이터가 많은건가요?
빅데이터 에 대해서 많이 궁금 한게 데이터가 많으면 빅데이터라고 하는 건가요?
아니면 실시간 처리가 가능하면 빅 데이터 인가요? 여러 이야기가 많은데 정확한 빅데이터를
설명해 주실분 있으신가요?
엄밀히 말하자면 빅데이터는 데이터가 많은것을 빅데이터라고 하긴 합니다.
인터넷 사용량이 증가하면서 전 세계 인터넷에는 사람들의 흔적이 엄청나게 쌓이고 있지요
(블로그 포스팅, 로그인, 방문기록, 영상, 사진 등등)
유명한 인터넷 쇼핑몰의 경우에는 굳이 구매를 하지 않더라도
어떤 나이대의 어떤 성별을 가진 사람이 어떤 위치(IP를 기반으로 한 대략적인)에서 어떤 정보를 검색했는지 , 얼마나 머물렀는지 연관검색으로 어떤 정보를 검색하고 어떤 상품에 관심이 있는지 등에 대한 기록이 데이터로 저장됩니다.
한명의 데이터만해도 이 수많은 정보들을 저장하는데 몇십 몇백 몇천명의 정보를 저장하게 된다면 말 그대로 엄청나게 방대한 양의 데이터가 됩니다.
빅데이터라는 단어를 쓰기 시작한지는 그리 오래되지 않았지만 빅데이터는 일단 데이터의 양을 기반으로 합니다만, 데이터의 생성속도, 데이터 형태의 다양성을 복합적으로 보는 것이 일반적입니다.
3V 라고 하여
데이터의 양(Volume)
데이터 생성 속도(Volocity)
다양성(variety)
따로 어떤 양, 어떤속도, 어떠한 형태 등 수치적으로 정확하게 구분되어 있지는 않고,
회원 정보라던지 게시판 글이라던지 하는 일반적인 데이터와는 달리
"데이터양이 방대하고, 생성속도가 빠르며, 그 형태가 다양한 정보들" 이라고 생각하시는 것이 좋을 것 같습니다.
빅데이터라는 패러다임이 시간의 흐름에 따라 조금씩 확장되는 것 같습니다. 하지만 자명한 부분은 빅데이터는 아주 많은 데이터를 저장하고 처리하는 것을 의미한다는 것입니다. 아주 많다는 것이 상황에 따라 조금 다를 수 있습니다. 크게 두가지 케이스로 볼 수 있습니다.
하나의 서버에서 저장하거나 처리(계산)하기 어려운 량의 데이터
하나의 서버에서 처리할 수 있으나 아주 많은 계산 시간이 걸리는 데이터
빅데이터 프레임워크에서는 이 방대한 데이터를 여러 서버에 분산하여 저장하거나 실시간 혹은 근실시간(상대적 개념입니다.)으로 처리하는데 도움을 줍니다.
예전에는 이 방대한 데이터를 저장 및 처리하는 데 많은 비용이 들고 처리시간도 굉장히 오래 걸렸습니다. 하지만 빅데이터 처리기술(오픈소스)이 발달함에 따라 며칠 걸리던 일을 몇시간에 처리할 수 있게 되었고, 데이터 저장과 처리에 필요한 특수한 전용 서버와 소프트웨어를 구매하지 않아도 되어서 비용이 수억원에서 수천만원으로 줄어들게 되었습니다.
빅데이터는 이런 면에서 혁신적인 패러다임으로 여겨지고 있습니다.
빅데이터.를 문자 그대로 받아들이면 단순히 큰 데이터를 얘기하는 것이구요.
빅데이터.라고 하면 데이터 마이닝을 얘기하는 것이라고 생각합니다.
데이터 마이닝은 대용량의 데이터로부터 이들 데이터 내에 존재하는 관계, 패턴, 규칙들을 탐색하고 모형화함으로써 유용한 지식을 추출하는 것을 말합니다.
데이터 마이닝은 구체적으로
Knowledge Discovery in Database (KDD)
Machine Learning (기계 학습)
Pattern Recognition
등으로 분화되어 있습니다.