머신러닝과 빅데이터는 병행 공부를 뗄레야 뗄 수 없는 관계일까요?
안녕하세요.
머신러닝에 관심이 많은 1인입니다.
머신러닝을 개인적으로 공부하고 싶은데 그 과정에서
지도학습같은 분야에서 다량의 데이터가 필요할 것 같은데
그렇다면 머신러닝에서 빅데이터 공부도 필수로 수행될 것 같단 생각이 들더라고요.
머신러닝을 공부하면서 빅데이터 공부도 필수로 해야 하는 걸까요?
안녕하세요, 관련 현업자로서 경험에 근거하여 답변드립니다.
먼저, 머신러닝과 빅데이터 공부라는 것이 결과적으로 다르다고 보기는 힘듭니다. 질문자 분께서 의도하신 빅데이터 공부라는 것은 사실 데이터 아키텍처에 해당하는 부분과 데이터 마이닝과 같이 데이터 분석에 해당하는 부분이 함께 있습니다. 빅데이터라는 개념은 사실상 기술의 발전에 의해 데이터의 특성 다양화와 규모 확장에 따라 이에 맞는 데이터 베이스 설계 및 운영과 분석 개념들이 생겨난 것으로 볼 수 있습니다. 따라서 데이터의 특성에 따라 현재에도 단순히 RDB를 구축하여 쓰는 것으로 충분한 데이터 분석 분야도 있는 반면, 말씀하신 빅데이터에 해당되는 데이터를 분산형 DB에 구축하여 운영하고 분석하는 것도 있습니다. 따라서 공부하기를 원하시는 도메인에 맞게 공부하시는게 좋을 것 같습니다만, 명확하게 소규모 데이터로 진행되는 분야가 아닌 이상 최근의 추세에 맞게 두 분야를 모두 접해보시고 공부하시는게 큰 도움이 될 것입니다.
결국 데이터 분석을 통해서 인사이트를 도출하는 것이 목표이고, 특정 분야를 제외하고 대부분의 회사들에서 요구하는 데이터 과학자의 역할은 데이터의 양이나 특성에 상관없이 수집, 관리, 분석하는 역량입니다. 즉, 빅데이터의 개념에 대한 전반적인 이해와 머신러닝과 같은 분석적인 역량 모두 필수적이라고 생각합니다.
모쪼록 원하시는 역량 개발을 하시길 바랍니다.
감사합니다.
지도 학습나 강화 학습을 하려고 한다면 많은 데이터가 있어야 그나마 좀더 좋은 결과가 나오지 않을까 합니다.
데이터가 너무 작거나 다양한 데이터가 없으면 오버핏나 강화 학습을 하려고 한다면 많은 데이터가 있어야 그나마 좀더 좋은 결과가 나오지 않을까 합니다.
데이터가 너무 작거나 다양한 데이터가 없으면 오버피팅이 될수 있기 때문에 가능한 데이터는 많으면 좋을 것 같습니다.
두 분야 모두 알고 있으면 좋겠지만 머신러닝을 공부하면서 빅데이터 공부를 같이 시작해야 할 필요는 없을 것으로 생각됩니다.
어느 정도 머신러닝에 대해 익숙해지면 그 이후에 시작 하셔도 됩니다.
보통 업무를 진행하는 경우에도 분석을 위한 데이터 구축 업무를 진행하는 인원과 분석을 진행하는 인원이 별도로 있는 경우가 많습니다.
공부를 위한 데이터 정도라면 kaggle( https://www.kaggle.com/datasets ) 같은 곳에서 쉽게 다운로드 하실 수 있습니다.