본문 바로가기

AI & IT 이야기

DeepSeek V3와 DeepSeek-R1

 

 

최근 중국의 AI 스타트업 DeepSeek에서 개발, 발표한 DeepSeek V3가 주목받고 있습니다.
논문이나 이런 곳에서는 작년 여름쯤부터.. 일찌감치 DeepSeek의 이름이 언급되고 있었던 것 같습니다만 올해 초부터 실리콘밸리 등을 중심으로 중요한 이슈가 되고 있다고 합니다.

 

( https://www.deepseek.com/ )



DeepSeek V3는 중국에서 개발되고 발표되었지만 오픈소스, 그것도 가장 자유로운 라이센스 중 하나인 MIT 라이센스를 적용한 모델입니다.
특히 현재 시점에서 발표된 오픈소스 모델 중 최고 수준의 성능을 보여주고 있으며, 특정 영역에서는 GPT-4o나 Claude 3.5 Sonnet 등의 폐쇄형 모델과 비슷하거나 더 뛰어난 성능을 보이는 것으로 알려져 있습니다.
또한 6,710억개의 파라미터를 가진 거대한 규모의 모델임에도 불구하고 다른 메이저급 모델과 비교할 때 매우 적은 훈련비용을 사용한 경제적인 모델이라는 점이 많은 연구자들에게 충격을 주고 있습니다.

 

모델 훈련비용 (파라미터 수) 사용된 GPU GPU 사용시간 훈련기간 처리된 토큰수
DeepSeek V3 약 $557만 (671B) NVIDIA H800 x 2048대 278.8만 시간 약 2개월 14.8조
Llama3.1 약 $6,000만 (405B) NVIDIA H100 x (최대)약 16,000대 약 3,080만 시간 약 2.6개월 15.6조
GPT-4 (2023) 약 $7,835만 추정 미공개 미공개 미공개 미공개
Gemini Ultra 약 $1억9,100만 추정 미공개 미공개 미공개 미공개
PaLM (2022) 약 $1,239만 추정 미공개 미공개 미공개 미공개
Claude 3.5 약 $1억 추정 미공개 미공개 미공개 미공개

모델의 훈련에 투입된 자원 추정치

 

최근의 메이저급 모델들은 투입된 자원에 대한 정보를 감추는 것이 유행인가 봅니다.

위에 제시된 추정치는 스탠포드 대학교에서 2024년 상반기에 발표한 인공지능 인덱스를 기반으로 한 값입니다.

 

추정치이긴 하지만 위에 제시된 훈련비용만을 보더라도 DeepSeek이 얼마나 저렴하게 개발된 모델인지 알 수 있습니다.

거기에 성능까지 타 모델들과 비슷하거나 더 뛰어난 모습을 보인다고 하니 미국 빅테크를 포함하여 수많은 AI기업과 정부 기관, 연구소 등이 발칵 뒤집힐만 하죠.

 

물론 중국 정부 및 중국 기업의 경우 성능은 과장하고 투입 비용은 축소하여 발표하는 성향이 있기 때문에 제시된 수치들을 전부 믿기는 어렵긴합니다.

그러나 성능적인 부분이나 기타 많은 부분이 논문과 오픈소스 등을 통해 공개되었기 때문에 검증이 가능한 부분도 예전에 비해 많이 늘어났으며, 무시할 수 없는 상황이라는 것은 명확해 졌다고 할 수 있습니다.

 

논문과 공개된 자료들을 기반으로 보면 DeepSeek V3는 MoE(Mixture of Experts) 아키텍처강화학습(Reinforcement Learning, RL), FP8 혼합 정밀도 학습 적용 등 혁신적인 기술을 적용함으로써 이러한 성과를 도출한 것으로 보입니다.

예를 들면 모델이 가진 파라미터의 수는 671B의 거대한 규모이지만 MoE 아키텍터를 적용함에 따라 모델의 용량을 증가시키면서도 계산 비용을 일정하게 유지할 수 있게 되어 최종적으로 훈련비용을 대폭으로 절감할 수 있었을 것입니다.

실제로 DeepSeek V3는 각 토큰 처리 시 6,710억개의 파라미터 중 370억개만 활성화시킴으로써 계산 효율성을 크게 향상시켰다고 합니다.

또한 다양한 전문가 네트워크로 구성된 MoE 아키텍처에 의해 다양한 작업에서 뛰어난 성능을 보이게 되었고, FP8 혼합 정밀도 학습이 함께 적용됨으로써 전체 학습에 단 278.8만 H800 GPU 시간만 소요하여 학습 비용을 크게 절감하였다고 합니다.

그리고 DeepSeek V3를 기반으로 개발된 DeepSeek-R1은 강화학습과 CoT(Chain of Thought)를 포함한 추론(Reasoning)기능을 강화한 모델로 수학, 코딩 등에서 강력한 성능을 보여주고 있습니다.

 

미국은 중국의 AI 파워가 급성장하는 것을 막기 위해 반도체칩 공급제한 등 여러 제재를 가했지만 그 결과로 중국은 하드웨어보다는 소프트웨어적인 기술 혁신을 중심으로 활로를 개척했다고 볼 수 있습니다.

이러한 사실은 DeepSeek V3가 보여준 기술 혁신에서 확인할 수 있습니다.

그래서 지금 미국의 빅테크 기업을 중심으로 AI 기업과 정부기관들은 이에 대한 대응책 마련을 위해 고심하고 있습니다.

더욱 강력한 AI 모델의 개발을 가속화하고 오픈소스의 활용도를 더 높이며 보다 효율적인 자원관리와 최적화 기술에 대한 연구를 강화하는 등의 기술적인 대응과 AI 인재 확보 및 산업 생태계 변화 노력 등의 사회적인 대응, 트럼프 정부의 출범과 함께 공식적으로 발표한 "스타게이트 프로젝트(Stargate Project)"의 추진과 수출통제 강화와 같은 정책적인 대응까지.. 정말 다양한 대응을 준비하고 있습니다.

 

반면 국내에서는 이렇다할 대응책이 나오지 않고 있습니다.

AI 전문가 그룹에서 오가는 토론 내용을 보면 국내의 전문가들이나 기업들도 머리를 싸매고 있긴 합니다만.. 뭔가 성과가 보이지 않고 있네요.

지금 시점에서 제대로 된 대응책을 마련하지 못한다면 우리나라의 AI 경쟁력은 크게 위협을 받을 것으로 예상됩니다.

 

또한 DeepSeek의 프라이버시 정책(https://platform.deepseek.com/downloads/DeepSeek%20Privacy%20Policy.html) 등을 보면 지나치게 많은 정보를 수집하고 있으며, 당연히도 이런 정보는 모두 중국 내의 보안서버에 저장되고 있기 때문에 DeekSeek 관련 모델을 사용할 때에는 보안에도 각별히 신경을 써야 할 듯 합니다.(네이버AI랩 하정우님 제공정보)

그리고 발생할 수 있는 모든 분쟁은 중국본토의 법에 따라서만 대응한다고 되어 있다고 합니다.

함부로 사용했다가는 어떤 문제가 발생할지... 의심스러워집니다.

 

여러가지로 걱정이군요.


 

어젯 밤에 글을 다 써놓고 저장이 안되어 날렸네요.

왜인지 로그인 세션이 끊어져 있었던 것 같습니다.

그래서 눈물을 머금고...(?) 다시 씁니다..

 

다시 글을 쓰면서 보니... 어제 밤 사이에 엔비디아의 주가가 장중 17%나 급락했다고 하는군요.

급락의 원인은 DeepSeek 쇼크라고 합니다.

AI분야 뿐만아니라 정치, 경제, 사회적으로 여러모로...심각한 지각변동이 예상되는 시기입니다.

머리 속으로 걱정이 가득 차 오르네요..

728x90
반응형