ChatGPT의 3주년 기념 선물 – DeepSeek V3.2 시리즈, GPT-5 및 Gemini에 도전

작성자: Boxu Li

ChatGPT가 등장한지 3년 후, AI 커뮤니티를 위한 생일 선물로 새로운 오픈 소스 경쟁자가 등장했습니다. DeepSeek-V3.2와 DeepSeek-V3.2-Speciale – 두 개의 새로 출시된 대형 언어 모델 – 은 오픈 AI 시스템의 경계를 확장하고 있습니다. 중국 AI 연구소 DeepSeek에서 개발한 이 모델들은 GPT-5 수준의 추론 성능을 제공하여, Google의 Gemini-3.0-Pro와 같은 최첨단 폐쇄형 모델과 경쟁하려고 합니다[1][2]. 두 모델과 심층 기술 보고서는 오픈 소스화되어 연구자와 개발자들이 오픈 모델이 얼마나 발전했는지를 더 가까이에서 살펴볼 수 있게 되었습니다.

DeepSeek-V3.2: GPT-5 수준의 성능을 발휘하는 일상적인 드라이버

DeepSeek-V3.2는 균형 잡힌 “일상 드라이버” 모델로 설계되었습니다. 이는 일반적인 질문 응답, 코딩 지원 및 실제 애플리케이션에서의 AI 에이전트 작업에 적합합니다. DeepSeek의 벤치마크에 따르면, V3.2의 추론 능력은 공개적인 추론 테스트에서 GPT-5 수준과 일치하며, Gemini-3.0-Pro보다는 약간 뒤처집니다[1]. 실제로 이는 V3.2가 오늘날 최고의 폐쇄형 모델과 거의 동일하게 복잡한 논리적 및 분석적 질문을 처리할 수 있음을 의미합니다. 특히, V3.2는 일부 이전의 오픈 모델(예: Kimi-K2-Thinking)보다 훨씬 간결한 출력을 생성하며, 추론 깊이를 잃지 않으면서 토큰 사용량과 사용자 대기 시간을 줄입니다[3].

DeepSeek-V3.2는 670B MoE 아키텍처 중 토큰당 6850억 개의 매개변수가 활성화되지만, 효율성과 긴 문맥 사용에 최적화되어 있습니다. 확장된 128K 토큰 문맥 창을 지원하여 한 번에 수백 페이지의 텍스트를 분석할 수 있습니다. 크기에도 불구하고 V3.2는 외부 도구 사용과 함께 추론을 통합하도록 세밀하게 조정되었습니다. 실제로, 도구를 호출하는 과정에서 *'생각'*할 수 있는 DeepSeek의 첫 번째 모델입니다. V3.2는 도구를 사용할 때 연쇄적 사고 모드와 표준 모드를 모두 지원하여 계산기, 코드 해석기, 검색 엔진과 같은 다단계 도구 보강 작업을 구조적으로 추론할 수 있습니다. 이는 V3.2를 코드 실행 보조부터 웹을 검색하는 대화형 에이전트까지 에이전트 응용 프로그램에 특히 강력하게 만듭니다.

V3.2-Speciale: 극한의 추론, Gemini Pro와 동등한 수준

더 많은 추론 능력이 필요한 사용자들을 위해, DeepSeek는 표준 모델과 함께 V3.2-Speciale을 출시했습니다. Speciale 버전은 오픈 소스 추론을 극한으로 밀어붙이며, 확장된 “사고” 메커니즘을 도입하고 전용 수학 정리 증명 모듈( DeepSeek-Math-V2 모델에서)을 통합했습니다. 결과적으로 개발자들이 말하는 “모델 능력의 경계를 탐구하는” 고난도 문제 해결에 맞춰 조정된 모델입니다[4]. 엄격한 논리 및 수학 벤치마크에서, DeepSeek-V3.2-Speciale의 성능은 Gemini-3.0-Pro와 비슷합니다[4], 이 분야에서 최첨단과 거의 일치합니다.

이 주장은 Speciale의 뛰어난 성과로 뒷받침됩니다. 이 모델은 국제 수학 올림피아드 (IMO 2025), 중국 수학 올림피아드 (CMO 2025), ICPC 2025 세계 결선 (프로그래밍), 그리고 **IOI 2025 (정보학)**에서 금메달 수준의 결과를 달성했다고 합니다[5]. 실제로 ICPC 코딩 대회에서 V3.2-Speciale의 성과는 **인간 은메달리스트(2위)**와 동등했고, IOI에서는 인간 상위 10위 경쟁자와 맞먹었습니다[5]. 이는 AI 모델로서 특별한 성과이며, 인간 엘리트 수준의 추론 및 문제 해결 능력을 보여줍니다.

특히 Speciale은 전문가 중심 모델이라는 점에 주목할 만합니다. 이 모델은 장문의 논리적 추론(예: 상세한 증명, 다단계 논리, 복잡한 프로그래밍 문제 해결)에 뛰어나지만, 일상적인 대화나 창의적인 글쓰기에는 최적화되어 있지 않습니다. 또한, 실행 비용이 더 높습니다 – Speciale은 답변을 내기 위해 상당히 더 많은 토큰을 소비하는 경향이 있습니다[6]. 현재 DeepSeek은 V3.2-Speciale을 제한된 연구용 API로만 제공하며(도구 사용 불가), 이는 일상적인 대화보다는 학문적이거나 고위험 논리 작업에 적합하다는 점을 강조하고 있습니다.

희소 어텐션을 통한 효율적인 추론 (DSA)

DeepSeek-V3.2의 성능을 가능하게 하는 주요 혁신 중 하나는 **DeepSeek 희소 어텐션 (DSA)**이라는 새로운 어텐션 메커니즘입니다. 전통적인 Transformer 모델은 모든 토큰이 다른 모든 토큰에 주목하기 때문에 문맥 길이가 늘어날수록 2차 비용이 발생합니다. DSA는 세밀한 희소 어텐션 패턴을 사용하여 이 병목 현상을 해결합니다[7]. 이 메커니즘은 현재 토큰과 이전 토큰 간의 관련성 점수를 빠르게 추정하여, 가장 관련성이 높은 상위 $k$개의 토큰만 선택하도록 하는 “번개 인덱서” 구성 요소를 도입합니다[7]. 본질적으로, 모델은 관련 없는 문맥을 무시하고 긴 시퀀스의 중요한 부분에만 집중하도록 학습합니다.

이 희소 어텐션 설계는 긴 시퀀스에 필요한 계산을 *O(L²)*에서 *O(L·k)*로 줄이며, 여기서 k는 L보다 훨씬 작습니다. DeepSeek의 구현에서는 k=2048이 사용되었으며, 두 번째 훈련 단계 동안 각 토큰이 2048개의 선택된 과거 토큰에 주의를 기울입니다. 팀은 DSA를 위해 두 단계의 훈련 전략을 채택했습니다: 먼저 라이트닝 인덱서가 전체 어텐션과 함께 몇십억 개의 토큰을 통해 훈련되는 밀집 웜업을 실시하여 전체 어텐션의 행동을 모방하는 방법을 배우도록 했습니다. 그런 다음 모델은 희소 모드로 전환되어 수백억 개의 추가 토큰으로 상위-$k$ 제약 조건을 적용하여 훈련되었습니다. 그 결과는 정확도의 손실 없이 엄청난 효율성 향상입니다. 실제로, V3.2-Exp(최종 모델의 실험적 전신)는 새로운 희소 어텐션을 사용했음에도 불구하고 다양한 벤치마크에서 V3.1-Terminus와 동등한 성능을 보였습니다. [8].

실질적으로, DSA는 긴 문서가 더 이상 부담이 되지 않는다는 것을 의미합니다. 내부 테스트 결과, 128K 길이의 입력에서 2–3배 더 빠른 처리 속도와 약 30–40% 낮은 메모리 사용량[9]을 보여주었습니다. 비용도 크게 줄어듭니다. DeepSeek은 H800 클러스터에서 128K 컨텍스트에 대해 프롬프트(프리필) 비용이 백만 토큰당 약 $0.70에서 약 $0.20으로, 생성 비용은 약 $2.40에서 약 $0.80으로 감소했다고 보고했습니다 – 긴 컨텍스트 추론 비용에서 3배 감소입니다. 공개 API에서는 이러한 절감 효과가 사용자들에게 50% 이상의 가격 인하로 이어졌습니다[10]. 요컨대, DSA는 V3.2가 이전 모델보다 시간과 비용을 크게 줄이면서도 매우 긴 입력을 처리할 수 있게 하며, 출력 품질을 손상시키지 않습니다.

대규모 강화 학습: GRPO 및 전문가 증류

DeepSeek-V3.2의 강력한 성능의 또 다른 주요 요인은 여기에 들어간 대규모 강화 학습(RL) 미세 조정입니다. DeepSeek 팀은 훈련 후 RL에 전례 없는 컴퓨팅 자원을 투자했습니다. 이것은 사전 학습에 사용된 컴퓨팅의 10% 이상을 초과합니다(이는 670B 규모 모델에 대해 상당한 양입니다). 이는 RL 미세 조정 예산이 일반적으로 훨씬 작은 오픈 소스 AI에서는 매우 이례적입니다. 그 이유는 사전 학습이 광범위한 지식을 가르치는 반면, 집중적인 RL은 모델을 복잡한 목표(여러 단계 문제 해결, 도구 사용, 제약 조건 하에서의 지침 준수 등)에 맞춰 고급 기능을 개방할 수 있기 때문입니다[2].

RL을 안전하게 확장하기 위해 DeepSeek은 자체 그룹 상대 정책 최적화(GRPO) 알고리즘을 기반으로 구축했습니다. 이 RL 파이프라인에서는 안정성과 효율성을 향상시키기 위한 몇 가지 개선 사항을 도입했습니다:

· 편향되지 않은 KL 추정: 팀은 KL-발산 페널티에 사용된 기존 K3 추정기의 문제를 해결하여 무한한 그래디언트 업데이트로 이어질 수 있는 체계적인 편향을 제거했습니다. 이는 정책이 참조 정책에서 너무 멀리 벗어날 때 발생할 수 있는 훈련 불안정을 방지했습니다.

· 오프라인 시퀀스 마스킹: RL 훈련은 종종 많은 그래디언트 업데이트 동안 재사용되는 대규모 "롤아웃" 데이터를 생성하기 때문에(오프 폴리시 시나리오), DeepSeek은 각 샘플에 대해 롤아웃 정책과 현재 정책 사이의 KL 발산을 계산했습니다. 생성된 시퀀스의 정책이 현재 모델에서 너무 멀어지면, 해당 시퀀스는 훈련 업데이트에서 제외되었습니다[11][12]. 이 똑똑한 트릭은 모델이 주로 온 폴리시 또는 온 폴리시에 가까운 데이터에서 학습하도록 보장하여 안정성을 향상시키고 학습을 왜곡하는 나쁜 경로를 방지했습니다.

· MoE 라우팅 유지: DeepSeek의 모델은 전문가 혼합(Mixture-of-Experts) 아키텍처를 사용하여 다른 '전문가'(서브네트워크)가 서로 다른 토큰을 처리합니다. 여기서 도전 과제는 추론과 학습 구현 간의 약간의 차이가 동일한 입력에 대해 다른 전문가가 선택되도록 하여 일관성을 잃을 수 있다는 점입니다. DeepSeek은 추론 중 전문가 라우팅 결정을 캡처하고 RL 업데이트 동안 동일한 전문가 경로를 강제 적용하여 이를 해결했습니다. 이 '라우팅 유지' 방법은 RL 동안 조정되는 매개변수가 추론 시 사용될 동일한 전문가와 일치하도록 하여 전문가의 이동으로 인한 불쾌한 놀라움을 피할 수 있었습니다.

이러한 알고리즘 조정 외에도 RL을 위한 데이터 체제는 매우 야심찼습니다. DeepSeek는 특정 도메인이나 기술에 집중하는 전문가 모델을 여러 개 훈련시켰고, 모든 모델에서 지식을 끌어내 V3.2에 통합했습니다. 예를 들어, 그들은 수학(증명), 프로그래밍, 논리적 추론, 일반 도구 강화 작업, 코드 기반 에이전트, 검색 기반 에이전트에 대해 도메인 특정 전문가를 미세 조정했습니다. 각 전문가 모델은 필요에 따라 “사고” (사고의 연쇄) 모드와 “비사고” 모드로 훈련되었습니다. 이러한 전문가를 활용하여 DeepSeek는 각 도메인에서 고품질의 시연으로 이루어진 방대한 합성 데이터셋을 생성했으며, 최종 V3.2 모델을 감독하는 데 사용되었습니다. 이 전문가 증류 파이프라인은 85,000개 이상의 복잡한 명령어를 다루며, 단계별 수학 증명부터 소프트웨어 디버깅 세션에 이르기까지 풍부한 훈련 신호를 V3.2에 공급했습니다.

에이전트 기능 강화 및 도구 사용 통합

DeepSeek-V3.2의 주요 기능 중 하나는 크게 향상된 에이전트 기능입니다. 이는 모델이 문제를 해결하기 위해 여러 단계의 루프에서 계획하고, 추론하며, 도구를 사용하는 능력을 말합니다. 이전 버전의 DeepSeek 추론 모델에는 주요 한계가 있었습니다: 모델이 '생각 모드'에 있을 때(즉, 사고 과정을 생성 중일 때)는 외부 도구를 호출할 수 없었고, 그 반대도 마찬가지였습니다. V3.2는 이러한 장벽을 제거했습니다. 이는 도구 사용과 사고를 완전히 통합한 최초의 DeepSeek 모델로, 대화 중간에 내부 추론 체인을 유지하면서도 도구 호출(예: 코드 실행, 웹 검색)을 수행할 수 있습니다[13]. 이는 훨씬 더 강력하고 유연한 에이전트 동작을 제공합니다.

이를 지원하기 위해 DeepSeek 팀은 모델의 컨텍스트 관리가 다중 턴 작업에 어떻게 작동하는지를 새롭게 구상했습니다. V3.2에서는 모델의 추론 흔적(“생각”)이 도구 호출 시퀀스 전체에 걸쳐 보존되며, 각 단계에서 삭제되지 않습니다. 새로운 사용자 쿼리가 도착할 때에만 시스템이 추론 컨텍스트를 재설정하며, 대화 중 관련 도구 상호작용 기록은 여전히 유지됩니다.[14][15]. 이러한 접근 방식은 많은 토큰을 절약하고, 모델이 문제에 대해 지속적인 사고 체인을 구축하도록 하여 도구를 반복적으로 호출할 수 있게 합니다. 예를 들어, 사용자가 복잡한 코딩 질문을 하면, 모델은 단계별로 생각을 진행하고, 파이썬 인터프리터를 호출하여 코드를 테스트하고, 결과를 바탕으로 계속 생각을 이어가며, 필요에 따라 문서 검색 도구를 호출하는 등의 과정을 거칩니다. 올바른 솔루션이 검증되면 답변을 확정하는 방식으로 진행됩니다. 모든 중간 추론은 작업이 완료될 때까지 모델에 유지됩니다.

DeepSeek는 또한 모델에게 이러한 행동을 명시적으로 장려하는 「콜드 스타트」 프롬프트를 제공했습니다. 시스템 지침은 모델이 최종 답변을 공개하기 전에 먼저 세부적인 추론 과정을 출력하도록 유도합니다(특수 토큰으로 표시됨). 특히 프로그래밍 도전과 같은 복잡한 작업에 대해 말이죠. 이 프롬프트 엔지니어링은 V3.2가 어려운 질문에 대해 즉각적인 (종종 잘못된) 답변을 내놓기보다는, 사고의 흐름과 도구 능력을 활용해야 한다는 것을 알게 해줍니다.

V3.2의 에이전트 기술 세트에서 가장 인상적인 점은 어떻게 훈련되었는지에 있습니다. 팀은 모델이 학습할 수 있는 현실적이고 도전적인 시나리오를 만들기 위해 자동 환경 합성 파이프라인을 구축했습니다. 그들은 모델이 해결할 수 있도록 1,827개의 상호작용 과제 환경과 85,000개 이상의 복잡한 지시문을 생성했습니다[16]. 중요한 것은 이러한 과제가 '해결하기 어렵고 검증하기 쉬운' 방식으로 설계되었다는 점입니다. 즉, 모델은 우연히 해결책을 찾기 어려운 큰 검색 공간을 가진 문제를 제시받지만, 해결책을 확인할 명확한 기준이 있습니다. 이러한 특성은 강화 학습에 이상적입니다. 모델은 해결책을 제안하기 위해 실험(또는 도구 사용)을 하고, 주어진 모든 제약 조건을 충족하는지 빠르게 검증할 수 있습니다.

예를 들어, 합성된 작업 중 하나는 여러 제약 조건이 있는 3일 여행 일정 계획 문제였습니다 (도시를 반복하지 않기, 호텔 비용에 따라 예산을 동적으로 조정하기 등). 모델이 유효한 일정을 단순 추측하는 것은 매우 어렵습니다. 제약 조건이 조합 문제를 만들기 때문입니다. 하지만 모델이 일정 후보를 제시하면, 모든 제약 조건이 충족되는지 검증하는 것은 간단합니다. 여행 계획, 일정 조정, 논리 퍼즐 등 다양한 분야에 걸쳐 이러한 작업을 많이 훈련함으로써, V3.2는 검색, 최적화 또는 다단계 추론이 필요한 문제를 더 잘 처리할 수 있게 배웠습니다. 이러한 훈련 방식은 새로운, 보지 못한 에이전트 작업에 대한 모델의 일반화를 크게 향상시켰습니다.

코딩 에이전트의 영역에서 DeepSeek는 GitHub에 접속하여 수백만 개의 실제 이슈 스레드와 풀 리퀘스트를 탐색했습니다. 이 데이터에서 수만 개의 실행 가능한 코딩 챌린지 환경을 자동으로 구축했습니다. 이 모델은 버그 보고서 또는 기능 요청을 읽고, 코드베이스를 탐색하여 (도구의 도움을 받아) 수정을 구현하거나 기능을 추가하는 연습을 할 수 있었습니다. 이러한 환경은 Python, Java, JavaScript 등 여러 프로그래밍 언어를 포함하여 다양한 소프트웨어 문제에 모델을 노출했습니다. 별도의 파이프라인은 검색 기반 QA 에이전트를 처리했습니다. 다중 에이전트 시뮬레이션을 사용하여 DeepSeek는 하나의 에이전트가 긴 꼬리 엔티티에 대한 어려운 질문을 하고, 다른 에이전트가 검색 도구에 액세스하여 답변을 찾고 검증해야 하는 데이터셋을 생성했습니다. 이 다단계 생성(질문 생성 → 웹 검색 → 답변 검증)은 V3.2에게 효과적인 "연구 보조원" 역할을 가르치기 위한 고품질의 훈련 예제를 제공했습니다.

이러한 노력 덕분에 DeepSeek-V3.2는 도구 사용 에이전트 작업에서 획기적인 발전을 이루었습니다. 내부 평가에서 V3.2는 에이전트 벤치마크 세트에서 모든 오픈 모델 중 가장 높은 점수를 기록하여 닫힌 모델과의 격차를 크게 줄였습니다[17]. 개발자들은 V3.2가 해당 테스트의 특정 도구에 명시적으로 조정되지 않았음을 강조하며, 이는 에이전트 기술이 좁은 벤치마크에 국한되지 않고 실제 시나리오로 전이됨을 시사합니다[18]. 즉, 이 모델은 특정 작업에 과적합되지 않고 일반적으로 추론하고 도구를 사용하는 방법을 학습했습니다.

성능 벤치마크 및 비교

DeepSeek의 새로운 모델은 시장에서 최고의 AI 시스템과 어떻게 비교될까요? 기술 보고서와 초기 분석이 일부 답변을 제공합니다. 전반적으로 DeepSeek-V3.2는 수학적 추론 및 코딩 작업에서 최고 수준의 성능을 발휘하며, V3.2-Speciale는 복잡한 추론에서 최고와 경쟁합니다. 그러나 닫힌 모델이 여전히 우위를 점하고 있는 개방형 도구 사용과 같은 영역이 남아 있습니다. 아래는 경쟁 환경을 보여주는 선택된 벤치마크 결과의 스냅샷입니다:

표 1: 샘플 추론 벤치마크 성능 (정확도%)

벤치마크 (2025)

OpenAI GPT-5.1 Pro

Google Gemini-3.0-Pro

DeepSeek-V3.2

DeepSeek-V3.2-Speciale

AIME (수학 올림피아드)

~94.6% (예상)

~95.0% (예상)

93.1%

96.0%[4]

HMMT (수학 대회)

88.3%

97.5%

92.5%

99.2%[4]

GPQA (과학 QA, 어려움)

85.7%

91.9%

82.4%

85.7%

<small>출처: DeepSeek 기술 보고서[4]. GPT-5.1 및 Gemini 결과는 보고서 그래프의 대략적인 값입니다. Speciale은 수학 작업에서 종종 Gemini를 맞추거나 초과하며, 표준 V3.2는 GPT-5 수준에서 Gemini보다 약간 낮습니다.</small>

우리가 알 수 있듯이, DeepSeek-V3.2는 학문적 추론 과제에 대한 약속을 지킵니다. AIME와 HMMT 같은 수학 대회에서 V3.2의 정확도는 고급 GPT-5 모델과 비슷한 수준이며, Gemini의 최첨단 점수에 비해 단 몇 점 차이입니다. Speciale 모델은 이러한 수학 벤치마크에서 Gemini를 능가하기도 합니다[4], 이는 향상된 '긴 사고' 접근 방식의 성과를 보여줍니다. 이러한 결과는 놀랍습니다. 수학과 형식적 추론은 오랫동안 오픈 모델의 약점으로 여겨졌지만, V3.2는 오픈 소스 시스템이 이 분야에서 최전선 수준의 성과를 달성할 수 있음을 보여줍니다[19].

코딩 측면에서 DeepSeek-V3.2는 경쟁이 치열하지만 빛을 발합니다. SWE-Bench Verified 테스트(모델이 단위 테스트를 통과하는 버그 수정 코드 차이를 생성할 수 있는지 확인하는 테스트)에서 V3.2는 **~73%**를 기록하여 전작(전작 V3.1은 ~66%[20])을 크게 능가하고 Moonshot의 Kimi K2, Alibaba의 Qwen-3와 같은 다른 상위 오픈 모델과 거의 비슷한 수준입니다. 사실, 이 모든 오픈 모델은 이 코딩 벤치마크에서 OpenAI의 이전 120B 기준을 약간 능가합니다[21][22]. 이는 오픈 모델이 실질적인 코딩 능력에서 얼마나 멀리 발전해왔는지를 강조합니다. DeepSeek V3.2는 실제 버그를 안정적으로 수정하고 작동하는 코드를 생성할 수 있어 개발자 지원에 매우 유용합니다.

그러나 최고 수준의 폐쇄형 모델과 비교했을 때, 상황은 혼재되어 있습니다. 특정 코딩 작업에서는 GPT-5.1이 여전히 우위를 점하고 있습니다. 예를 들어, 여러 단계의 CLI 도구 사용과 에이전트 루프 내 코딩을 평가하는 더 복잡한 Terminal-Bench 2.0에서 초기 보고에 따르면 GPT-5와 Anthropic의 Claude가 DeepSeek보다 특히 긴 도구 사용 세션에서의 지속적인 신뢰성 면에서 뛰어나다고 합니다[23]. DeepSeek-V3.2의 정확도는 이러한 복잡한 다단계 에이전트 작업에서 떨어지며, 이는 매우 유능하지만 완전히 자율적인 코딩 에이전트나 장기적인 문제 해결에 있어서는 아직 최고 성능을 발휘하지 못하고 있음을 반영합니다. 마찬가지로, 종합적인 도구 사용 벤치마크인 MCP-Universe 및 Tool-Decathlon에서도 V3.2는 GPT-5와 Gemini에 비해 상당히 뒤처집니다[24]. OpenAI와 Google의 시스템은 여전히 복잡하고 다중 도구 계획을 더 일관되게 실행합니다. 격차는 좁혀졌지만, V3.2는 이러한 테스트에서 오픈 모델 중 새로운 최고치를 기록했으며[17], 일반적인 도구 사용 능력에서 폐쇄형 모델과 진정으로 동등해지기 위해서는 여전히 상당한 차이가 남아 있습니다.

요약하자면, DeepSeek-V3.2는 많은 분야에서 최첨단에 가까운 성능을 제공합니다. 실제 코딩 작업에서 GPT-5와 경쟁적이며, 심지어 고급 수학 추론에서는 Gemini와 대등합니다[19]. 동시에, 모든 면에서 GPT-5나 Gemini를 대체할 수 있는 것은 아니며, 복잡한 도구 조정이 필요한 초복잡한 "에이전트" 시나리오에서는 여전히 그 닫힌 모델들이 우위를 점하고 있습니다[25][24]. 이 균형 잡힌 관점은 기대치를 설정하는 데 중요합니다: V3.2는 최적화된 영역(효율성을 갖춘 추론 및 코딩)에서 탁월하며, Speciale 변형은 추론의 한계를 밀어붙였을 때 가능한 것을 보여줍니다.

제한 사항 및 전망

인상적인 성과에도 불구하고, DeepSeek 팀은 V3.2 시리즈의 특정 제한 사항에 대해 솔직합니다. 첫째, 총 훈련 FLOPs(부동 소수점 연산)가 일부 초대형 폐쇄 모델보다 여전히 적기 때문에, V3.2의 세계 지식 범위와 희귀 사실의 기억력이 GPT-5와 같은 리더들보다 뒤처질 수 있습니다. 즉, 더 큰 독점 모델이 흡수한 일부 난해한 퀴즈나 특정 분야의 정보를 알지 못할 수 있습니다. 이는 개방형 모델에서 흔히 있는 절충점으로, 종종 약간 더 작거나 덜 다양한 말뭉치로 훈련해야 하기 때문입니다.

또 다른 도전 과제는 토큰 효율성입니다. DeepSeek는 V3.2와 Speciale가 때때로 Gemini-3.0-Pro와 같은 모델이 더 간결한 응답으로 달성할 수 있는 동일한 답변 품질에 도달하기 위해 더 긴 추론 체인을 생성해야 한다고 지적합니다[6]. 실제로, V3.2를 '생각 모드'로 사용할 경우 매우 어려운 문제를 해결하기 위해 더 높은 토큰 비용(및 지연)이 발생할 수 있습니다. 모델이 단계를 거치며 장황해질 수 있습니다. Speciale는 특히 뛰어난 능력을 지니고 있지만, 토큰을 많이 소비합니다. 사람 전문가나 정교한 폐쇄 모델이 더 간결한 답변을 제공할 수 있는 상황에서 매우 상세한 증명이나 설명을 생성할 수 있습니다. 이는 항상 단점만은 아닙니다(철저한 추론은 가치가 있을 수 있습니다), 하지만 특정 사용에 더 많은 비용이 들게 만듭니다.

DeepSeek-V3.2는 현재 개방형 대화의 세련됨이나 창의적인 글쓰기를 위한 세부 조정이 부족합니다. 훈련의 초점은 명확하게 구조적 문제 해결과 에이전트에 맞춰져 있었습니다. 사용자들은 이 모델이 논리적이고 정보 제공에 중점을 두지만, GPT-4나 Claude와 같은 모델에 비해 자연스러운 대화나 상상력이 부족하다고 관찰했습니다. 이는 의도적인 선택으로, DeepSeek은 이번 릴리스에서 연구 과제, 코딩, 수학 능력을 우선시했습니다. 이로 인해 일반 대화 능력은 다소 떨어졌을 수 있습니다.

앞으로 DeepSeek 팀은 지속적인 발전을 암시했습니다. V3.2 기술 보고서에서는 이러한 단점을 미래 개선의 목표로 공개적으로 논의하고 있습니다. 이미 DeepSeek-R2 모델에 대한 커뮤니티의 기대가 높습니다. 이름이 유지된다면, R1과 V3.2의 기반을 바탕으로 한 다음 추론 중심 모델이 될 가능성이 있습니다. (DeepSeek의 팔로워들은 V3.2 출시 반응으로 *“R2는 언제 나오나요?!”*라고 반쯤 농담으로 간청했습니다.) R2가 출시된다면, 더 큰 훈련 실행, 더 많은 지식 주입, 향상된 토큰 효율성 기술을 통해 격차를 더 줄일 수 있을 것이라는 기대가 있습니다.

현재로서는 DeepSeek-V3.2가 오픈 소스 AI 세계에서 이정표를 세웁니다. 이는 희소 주의에서 대규모 RL 미세 조정 및 합성 작업 생성까지의 창의적인 엔지니어링을 통해 오픈 모델이 추론 및 코딩에서 최전선 성능에 도달할 수 있음을 보여줍니다. 이는 한때 수조 파라미터의 폐쇄 모델의 독점 영역으로 여겨졌던 분야입니다. 한 분석가는 V3.2를 *“대다수 개발자가 실제로 작업하는 코드와 수학에서 최전선 수준의 결과를 제공하는 강력하고 저렴한 사고 및 코딩 모델”*이라고 표현했습니다.[26]. 이는 GPT-5나 Gemini를 범용 AI 솔루션으로 대체하지는 못할지라도, 그 특화된 역할에서는 DeepSeek-V3.2가 놀랍도록 성공적입니다[27] – 그리고 결정적으로, 이는 자유롭게 사용할 수 있는 모델로서 이뤄낸 성과입니다. 더 넓은 AI 생태계에서 이는 ChatGPT의 기념일에 정말로 귀중한 선물입니다.

출처: 이 기사에 포함된 정보와 인용문은 DeepSeek의 공식 릴리스 노트와 기술 보고서[1][4][13][17], AI 출판물의 뉴스 보도 및 분석[2], 초기 사용자에 의한 DeepSeek-V3.2의 독립적 평가[19][24] 및 커뮤니티 전문가[7][8]에서 가져왔습니다. 모든 벤치마크와 비교는 해당 작업의 모델 성능의 현재 상태(2025년 12월)를 반영합니다.

[1] [3] [4] [5] [6] [13] [14] [15] [16] [17] [18] DeepSeek V3.2 정식 버전: 에이전트 기능 강화 및 사고 추론 통합 | DeepSeek API Docs

https://api-docs.deepseek.com/zh-cn/news/news251201

[2] DeepSeek, GPT-5에 맞서고 Gemini 3 Pro와 경쟁할 새로운 추론 모델 출시

https://analyticsindiamag.com/ai-news-updates/deepseek-releases-new-reasoning-models-to-match-gpt-5-rival-gemini-3-pro/

[7] [8] [9] [10] [11] [12] [21] [22] DeepSeek V3.2-Exp 리뷰. DeepSeek의 최신 실험 모델… | 바나클 구스 | 2025년 10월 | 미디엄

https://medium.com/@leucopsis/deepseek-v3-2-exp-review-49ba1e1beb7c

[19] [23] [24] [25] [26] [27] DeepSeek V3.2 vs Gemini 3.0 vs Claude 4.5 vs GPT-5 | Mehul Gupta 작성 | Data Science in Your Pocket | 2025년 12월 | Medium

https://medium.com/data-science-in-your-pocket/deepseek-v3-2-vs-gemini-3-0-vs-claude-4-5-vs-gpt-5-55a7d865debc

[20] deepseek-ai/DeepSeek-V3.1 - Hugging Face

https://huggingface.co/deepseek-ai/DeepSeek-V3.1