학문
색다른콜리160
여기 같은 사이트는 LLM으로 데이터를 모으는 역할을 할까여?
여기 같은 사이트는 LLM으로 많이 사람들의 질문과답변 데이터를 모아서 나중에 써먹을 수 잇을지 궁금한데여,
이런거 만드는데는 어느정도의 스토리지가 필요할지도 궁금해여?
5개의 답변이 있어요!
안녕하세요. 감병주 전문가입니다.
Q&A 사이트는 실제 사람들의 질문과 답변이 쌓여 있어 LLM 학습 데이터로 가치가 높습니다. 특히 현실적인 표현과 경험담이 많아 AI 성능 향상에 도움이 됩니다.
해외의 Reddit이나 Stack Overflow도 AI 학습 데이터 가치가 큰 사례로 알려져 있습니다. 다만 개인정보, 저작권, 이용약관 문제 때문에 무조건 자유롭게 사용하는 것은 아닙니다.
텍스트 데이터 자체의 저장 용량은 생각보다 크지 않아 수십~수백 GB 수준인 경우도 많습니다. 오히려 실제 비용은 GPU 연산, 데이터 정제, 검색 시스템 구축 같은 AI 인프라에서 더 크게 발생합니다.채택 보상으로 123베리 받았어요.
채택된 답변안녕하세요. 조일현 전문가입니다.
자료를 모으고 있습니다.
또한 미래에 핵심 자산으로 활용 가능합니다.
보통 거대 ai 기업들은 데이터 수집을 비활성화 한다면 활용하지 않겠지만,
기본적으로는 학습에 활용하도록 하기 때문입니다.
단순한 대화 용량은 생각 보다 작지만 실제 서비스를 구축하거나 이에 따른 메타 데이터나 데이터 베이스 용량에 따라
수십 및 수백 테라 바이트 또는 수백 페타바이트 처럼 글로벌 초대형 데이터 센터가 필요한 경우도 존재 합니다.
이 플랫폼 경우에는 작년과 비교해서 이용자가 빠진듯 보이나 100테라 이상 및 이하 정도로 유지될 것 같네요
안녕하세요. 서종현 전문가입니다.
데이터를 수집하여 LLM(대형 언어 모델)학습에 활용할수있습니다. LLM 개발 시에는 대량의 텍스트 데이터가 요구되며 수십에서 수백 기가바이트 이상의 저장공간이 필요합니다. 데이터의 양과 다양성에 따라 스토리지 요구량이 크게 달라지니, 구체적 목적에 맞춰 계획하는 것이 좋습니다.
질문 답변 형태의 사이트들은 실재로는 LLM 학습이나 품질 개선에 참고될 가능성이 있는데이터 구조를 가지고 있습니다.
사람들이 자연스럽게 질문하고 설명하는 내용들이 많아서, AI 입장에서라면 현실 언어 패턴을 배우기 좋은 형태이기 때문입니다. 물론 아무 데이터나 갖다 쓰는 건 아니고, 개인정보 같은 것들은 제거하고, 품질들도 한번 필터링하고, 혹시 모를 저작권 등도 검토가 되는 과정들이 매우 중요할 수 있습니다.
스토리지는 텍스트만 보면 생각보다 크지 않을 수 있지만, 이미지나 음성, 로그, 백업까지 포함한다면 규모가 엄청 커질 수 있습니다.
안녕하세요. 고한석 전문가입니다.
Claude.ai 같은 서비스는 실제로 대화 데이터를 수집하고, 사용자 동의 하에 모델 개선에 활용할 수 있어요. 다만 Anthropic은 개인정보 보호 정책상 데이터 사용에 꽤 엄격한 편이고, 기업/API 플랜은 기본적으로 학습에 사용 안 해요.
스토리지 규모를 보면, 대화 한 건이 평균 수 KB라고 해도 하루 수백만 건이면 수 TB, 1년이면 페타바이트(PB) 단위로 쌓여요. 여기에 메타데이터, 로그, 백업까지 더하면 실제 운영에는 수십~수백 PB 규모의 분산 스토리지 인프라가 필요해요.
실용적으로 보면, 대형 AI 기업들은 이미 AWS S3나 자체 데이터센터에 이런 규모로 운영 중이고, 비용만 해도 월 수백만 달러 수준이라 개인이나 스타트업이 동일하게 따라 하기는 현실적으로 매우 어려워요.