오픈ai는 여러 인공지능을 개발하기 위한 빅데이터를 어떤 방법으로 수집했을까요?

Question

구글은 세계검색엔진 시장, 유튜브 등을 통해서 엄청난 빅데이터를 계속 공급받을 수 있어 엄청난 강점을 가지는데,

김경태 · Accepted Answer

안녕하세요. 김경태입니다

OpenAI는 인터넷에서 크롤링을 통해 대규모 데이터를 수집했습니다. 이를 위해 웹사이트의 HTML 코드를 분석하고, 정규식 패턴을 사용하여 필요한 정보를 추출합니다. OpenAI는 미국과 유럽의 대학교에서 연구에 사용되는 빅데이터 세트를 활용하기도 했습니다. 이러한 데이터세트는 이미 전문가들이 직접 분류하고 레이블링한 결과물이기 때문에, 인공지능 모델 학습에 매우 유용합니다.

느긋한칼새269 · Answer

안녕하세요. 김학영 과학전문가입니다.OpenAI는 오픈소스 자연어 처리 프로젝트와 협력하여 그들이 수집한 데이터를 활용했습니다. 이는 대규모 데이터셋을 보다 다양하고 풍부하게 구축하는 데 도움이 되었습니다. 또 OpenAI는 웹 크롤러를 사용하여 인터넷의 다양한 웹페이지를 탐색하고 텍스트 데이터를 수집했습니다. 크롤링된 데이터는 모델 학습에 활용되었습니다.

럭스마가린 · Answer

안녕하세요. 원형석 과학전문가입니다.빅데이터에 대한 정의부터 생각해보셔야 하는데요.세상에는 수많은 데이터가 있습니다.이것들을 그냥 저장한다고 그게 다 정보가 되는 건 아니죠.이 데이터들을 가공하여 어떤 유의미한 "정보"로 변환하는 작업을 빅데이터로 볼 수 있습니다.​방법론을 이야기 하셨는데저는 목적론이 더 중요하다고 생각합니다.빅데이터의 기본은 일단 데이터를 쌓는 일인데 세상에 수많은 정보중에 어떤 데이터를 쌓을 것인가이것을 결정하는 것도 일종의 목적성이 부여되어 있는 것입니다.​예를 들어 "네이버에서 검색어를 모두 저장해두었다" 라면 이 정보는 검색의 경향에 대한 파악에 사용될 수 있겠죠.이 정보들을 모아둔 이유는 검색의 경향, 검색으로부터 어떤 다른 의미 분석 등 여러 목적으로 사용될 수 있습니다.이 분석에 RDB를 사용할지, Hadoop 같은 것을 사용할지, R 을 사용할지, AI 딥러닝을 사용하든 이런 것은 사실상 '목표'가 나오고 나서 가장 좋은 방법론을 찾을 뿐입니다.​공장에서 각종 센서 데이터를 수집해서 저장한다고 가정해보죠. (IOT 개념입니다만)왜 이런 정보를 수집했을까요? 목적으로 보면 센서 정보가 전체적인 공장의 상태를 파악하는데 유용하게 쓰일 것이기 때문이죠.이들 센서 데이터를 몇개월 혹은 몇년치를 모아서 경향 분석을 했더니 일정 패턴으로 상승하더라...이러면 예를 들어 압축기, 냉각기의 증설이 필요하다.. 이런 결론을 뽑아내게 되겠죠.​빅데이터에서 방법론은 크게 중요하지 않다고 생각합니다. 그것을 뽑아내는 알고리즘은 그 해당 영역마다 특성을 가지고 존재하는 법이고, 그 알고리즘이 존재하는 이유는 거꾸로 어떤 정보를 뽑아내기 위한 최적의 '방법'을 찾을 뿐, 그 알고리즘 존재의 가치는 '목적'에 있다고 생각되네요.

생물·생명

생물·생명

오픈ai는 여러 인공지능을 개발하기 위한 빅데이터를 어떤 방법으로 수집했을까요?