경제

AI 생태계에 대한 DeepSeek의 함의

25.02.03

어웨어

어웨어 리서치 원칙

우리가 리서치를 할 때 제 1 원칙은 한국어로 된 자료를 참고하거나 믿지 않는것이다. 제 2 원칙은 원 출처에 기반할 것이다. 제 3 원칙은 소셜 미디어에서 유명한 사람(인플루언서)의 말을 신뢰하지 않는것이다.

에이브러햄 링컨, 인터넷 정보에 대한 밈

신뢰할 수 없는 정보의 예시

다음은 DeepSeek에 대한 신영증권 반도체 담당 박상욱 선임연구원의 코멘트이다.

DeepSeek, AI 기술주 급락 코멘트

중국 딥시크(DeepSeek)의 영향으로 브로드컴, 엔비디아, 마이크론 등 AI 관련 업체들의 주가가 약세를 보임.
딥시크는 2023년에 설립된 중국의 AI 스타트업으로, 효율적인 AI 모델 개발로 주목받고 있음. 딥시크가 발표한 바에 따르면 첨단 하드웨어가 없이도 저비용으로 고성능 AI를 구현 가능함. 실제로 챗GPT o1과 비교했을 때 답변 수준이 유사한 것으로 확인됨.
외신에 따르면 딥시크는 대중 규제로 성능이 하향된 H800 칩을 사용했음. 딥시크는 H800을 시간의 2달러의 비용으로 2개월을 대여했다고 추측되며 총 비용은 약 58만달러로 라마3 학습 비용의 10분의 1수준임. 딥시크는 제한된 자원으로 고성능 AI 개발이 가능하단 점을 입증함.
딥시크의 발표로 향후 미국 빅테크 업체들의 효율성 중심 개발 트렌드가 강화될 가능성 높다는 판단. 비용 효율화가 비용 절감을 뜻 하는건 아니지만 투자를 보수적으로 집행할 가능성 높음. 1월 말부터 시작될 빅테크 업체들의 실적발표에 주목할 필요 있음.
또한 금번 발표로 인해 대중 수출 규제 강화될 가능성 높음. 중국이 낮은 비용으로 고성능 AI를 구현 가능한게 확인되면서 H800과 같은 대중 수출용 AI 반도체도 규제에 걸릴 것으로 전망됨. 반도체 소재, 부품, 장비 또한 규제에서 자유롭지 않다는 판단. 딥시크는 미중 무역 분쟁 심화의 계기가 될 것으로 예상됨.
당사는 딥시크가 H800으로 AI를 학습시켰는지에 대한 사실 여부를 확인할 필요 있다고 판단함. 중국은 미국 수출 규제를 우회해 H100 등 최신 AI 반도체를 수입하고 있다고 파악됨. 최근 Scale AI CEO인 Alexandr Wang은 CNBC 인터뷰에서 딥시크가 이미 5만개 이상의 H100을 보유하고 있다고 밝힘. 5만개의 H100의 가격은 대략 15억달러로 딥시크의 AI 개발 비용으로 추정되는 58만달러의 2,586배 수준. 루이싱커피, 이항 등 내부 정보를 통제했던 사례들을 고려하면 딥시크에 대한 정보도 과장됐을 가능성 존재한다는 판단.

논란이 된 건 DeepSeek의 V3 모델로, 기존보다 저비용에 OpenAI의 o1 모델과 비슷한 수준의 성능을 낸다고 주장하면서 AI 인프라(GPU 등)에 대한 과잉투자가 이루어진 것 아니냐는 우려를 일으켜 월요일 AI 관련주의 패닉셀을 불러 일으켰다. AI 인프라 대장주인 엔비디아(NVDA)의 경우 하루만에 16.97% 폭락할 정도로 투자자 심리에 거대한 악영향을 끼쳤다고 할 수 있다.

원 출처에 기반한 정보

DeepSeek-V3 훈련비용 | DeepSeek-V3 Technical Report

DeepSeek는 V3 Technical Report에서 훈련 비용이 $5.57 million, 즉 557만 달러라고 밝혔다. 박상욱 연구원의 58만 달러는 어디서 나온 숫자인지 모르겠는데, 부디 오타이길 바란다.
DeepSeek는 엔비디아의 H800 GPU 2,048개가 NVLink와 NVSwitch로 연결되어 있는 GPU 클러스터를 사용하여 V3 모델을 학습했다고 밝혔다.
해당 클러스터로 Pre-Training에 사용된 H800 GPU Hours를 나누면 약 2개월이 못 미치는 기간이 나온다. 모든 과정이 두 달만에 완료되었다는 이야기는 아니다.
DeepSeek는 "위에서 언급한 비용은 DeepSeek-V3의 공식 트레이닝에만 해당되며, 아키텍처, 알고리즘, 데이터와 관련된 사전 연구나 ablation에 들어간 비용은 포함되지 않는다"고 명시했다.

원 정보를 토대로 가공된 지식

Riot Games에서 연구원으로 일하며 Johns Hopkins 대학에서 인공지능 석사를 수료한 Eryk이 운영하는 블로그 글 Deepseek-V3 Training Budget Fermi Estimation의 핵심 내용을 요약해보자.

DeepSeek-V3 훈련 비용: 557만 달러는 전체 훈련 비용이 아니라 GPU 임대 시간 기준으로 계산된 값이다.
훈련 시간 및 토큰 수치: 논문에서 제시한 2.788M GPU 시간과 14.8조 토큰 수치는 충분히 가능하다고 판단된다.
병목현상 감소: fp8 혼합 정밀도와 MoE 최적화 덕분에 훈련 효율성을 높였다.
결론: 논문에서 주장한 훈련 시간과 비용은 현실적이며, 기술적 개선으로 이를 가능하게 했다.

DeepSeek-V3 논문에서 주장한 훈련 시간과 토큰 수치는 충분히 검증 가능한 수준이다. 논문에서 주장한 557만 달러의 비용은 모델 전체의 훈련 비용이 아니라 GPU 임대 시간 기준으로 계산된 값이다. 결론적으로, DeepSeek-V3가 14.8조 토큰을 2.788M GPU 시간으로 훈련했다는 주장은 현실적이며, 논문에서 제시된 모델 최적화와 병목현상 감소가 이를 뒷받침하고 있다.

음모론 검증 및 결론

신영증권 박상욱 연구원 등을 비롯한 음모론자들이 제기하는 "DeepSeek가 실제로는 H800 보다 성능이 높은 (중국에 수출이 제한된)H100 GPU를 이용해서 훈련을 했을것이다"는 주장은 신빙성이 떨어진다. DeepSeek 연구진은 H100 대비 인터커넥트 대역폭이 제한된 H800 클러스터의 병목현상을 보완하기 위해 여러 최적화 기법(fp8 훈련, load-balancing MoE, DualPipe 등)을 동원해서 이를 약 13% 줄인것으로 추정되는데, H100을 이용해서 훈련했었으면 이 정도의 최적화는 필요 없었을 가능성이 매우 높다.

DeepSeek는 논문을 통해 실현 불가능한 수준의 주장을 한게 아니다. 일부가 논문의 내용을 확대해석해서 "누구나 550만 달러가 있으면 GPT o1에 비견하는 모델을 두 달 만에 만들어낼 수 있다"는 잘못된 주장을 하고 있는것이 문제의 본질이다. OpenAI GPT o1이나 DeepSeek V3 수준의 모델을 만드려면 뛰어난 인력들의 광범위한 선행연구와 여러번의 모델 훈련이 필요하다. DeepSeek는 V3 모델의 가장 성공적인 훈련을 실행하는데 557만 달러가 들었다고 밝힌것이다.

전략적 대응 방안

음모론과 우려들이 가중되면서 DeepSeek V3의 발표가 AI 인프라 관련주인 엔비디아(NVDA)와 아리스타 네트웍스(ANET)등의 10~20%대 폭락이 일어났다. 해당 기업들의 투자자로서 우리는 어떻게 대응해야할까? 아니, 대응을 해야할까?

슈카의 "대응해야 하나?" 밈

우선 신뢰할 수 있는 정보를 토대로 보았을 때 DeepSeek가 V3 모델을 통해 상당한 수준의 효율화를 이루어낸것은 사실이라고 판단되나, 그 자체가 곧 AI 인프라에 대한 투자가 쓸모없다는 이야기는 아니다.

지난주 금요일 GPU를 세계에서 가장 많이 구매하는 기업 중 하나인 메타 플랫폼즈(META)는 올해 AI 인프라를 확대하기 위해 600억 달러 이상의 설비투자를 집행하겠다고 예고했으며, 이는 2024년 대비 50% 늘어난 수준이다. 마이크로소프트 CEO 사티야 나델라 또한 올해 800억 달러를 지출하겠다고 밝혔다.

이미 미국 빅테크 기업들은 모델 경량화와 최적화에 큰 관심을 가지고 있으며, 관련 기술도 축적하고 있다. 그럼에도 불구하고 계속해서 AI 인프라에 대한 투자를 확대하는것은 그들이 이 시장을 장기적으로 보고, 궁극적으로 더 뛰어난 AI 모델을 개발하는데 우선 집중하겠다는것을 뜻한다.

또한 DeepSeek가 V3 모델의 가장 성공적인 훈련을 실행하는데 557만 달러가 들었지만, 해당 훈련까지 도달하기까지 엄청난 수준의 연구와 훈련에 사용된 것보다 훨씬 더 강력한 GPU 클러스터가 필요했을것 이고, 이는 최소 수천억원의 전제 비용을 의미한다.

어웨어

0/ 500

1개의 필담이 있어요

같은 분야의 글 더보기

NEW
경제
배당 수익률 6.82% : 좋은 헬스케어 리츠 하나 소개합니다.안녕하세요, 카레라입니다.요즘 미국 리츠(REITs)에 관심 기울이시는 분들은 거의 없는데 6% 후반대 배당을 이제는 월 배당으로 꽂아주는 헬스케어 리츠가 있습니다. 시장 분위기는 썩 좋지 않지만 이 종목만큼은 배당주 덕후라면 관심종목에 한 번쯤 넣어볼 만한 매력이 있죠. 리얼티 인컴(O)이나 프롤로지스(PLD) 같은 리츠보다도 배당수익률이 훨씬 높은데 당연히 주가가 바닥 기는 게 한몫하지만 그 와중에 꾸준히 배당도 증액하고 자사주 매입까지 하는 괴상한 종목이에요.1. Healthpeak Properties, Inc(DOC) 기업 소개DOC는 시가총액 120억 달러짜리로 헬스케어 부동산계에서 덩치 꽤 되는 플레이어임포트폴리오가 외래진료 의료시설(전체 임대수입의 50% 이상), 생명과학 연구시설(40%), 고령자 복합주거(CCRC, 10%)로 3갈래로 나뉨외래진료 의료시설만 500채가 넘고 생명과학 연구소도 100채 이상 들고 있음주력은 외래진료와 연구실 쪽, 둘이서 회사 매출 90%
고건・9시간 전
2
0
27

NEW
경제
배당 수익률 13.49% : BDC가 이렇게 배당을 주고도 남는 게 있다고?안녕하세요, 카레라입니다."이렇게까지 퍼줘도 되나?" 싶을 정도로 배당을 때려박는 일반주가 아직도 미국 증시에 많은데 오늘 소개할 종목은 기본 배당수익률이 13.49%를 찍고 있습니다. 보통 이런 수익률은 회사가 망하기 직전 아니면 불가능하다는 게 상식인데 얘는 2021년 6월부터 지금까지 주가가 바닥을 기거나 대폭락 없이 10달러 후반~20달러 초반대에서 꾸준하게 버티는 중입니다. 실적을 봐도 매 분기마다 꼬박꼬박 배당을 퍼주고 있어 진짜로 현금 월세 받는 느낌이 확실히 살아 있습니다.1. FSK 기업 소개FSK는 고배당주 좋아하는 사람들한테는 흔한 BDC(Business Development Company)이게 뭐냐면 미국 중소, 중견기업에 대출해주고 이자 받아서 투자자한테 배당으로 돌려주는 구조라 우리나라 대부업+사모펀드 섞어놓은 느낌임운용은 FS Investments랑 글로벌 사모펀드계 대표 주자 KKR이 합작해서 만든 FS/KKR Advisor가 맡고 있음지금 규모까지 커진
고건・1일 전
2
0
119

멤버십 전용
NEW
경제
배당 수익률 10.47% : 벤처 투자 BDC 끝판왕안녕하세요, 카레라입니다.오늘은 미국 BDC(벤처대출 전문 투자회사) 중에서도 벤처 시장에서 독보적인 입지를 가진 기업을 들고 왔어요. 미국에선 20년 넘게 테크, 바이오, 생명과학 분야 벤처기업에 선순위 담보를 잡고 돈을 빌려주면서 누적 손실률 0.38%라는 역대급 기록을 자랑하는 회사입니다.
고건・3일 전
2
0
282