
著者: Boxu Li
ChatGPTのデビューから3年、AIコミュニティへの誕生日プレゼントとして、新たなオープンソースの競争者が現れました。DeepSeek-V3.2とDeepSeek-V3.2-Speciale、これらの新しくリリースされた大規模言語モデルは、オープンAIシステムの限界を押し広げています。中国のAIラボDeepSeekによって開発されたこれらのモデルは、最先端のクローズドモデルであるGoogleのGemini-3.0-Proに匹敵するGPT-5レベルの推論性能を提供することを目指しています[1][2]。両モデルと詳細な技術レポートはオープンソース化されており、研究者や開発者はオープンモデルがどこまで進化しているのかを詳しく見ることができます。
DeepSeek-V3.2は、バランスの取れた「日常使用」モデルとして設計されています。一般的な質問応答、コーディング支援、AIエージェントタスクに適しています。DeepSeekのベンチマークによると、V3.2の推論能力は公開された推論テストでGPT-5のレベルに匹敵し、Gemini-3.0-Proにはわずかに劣る程度です。実際には、V3.2は複雑な論理的および分析的な問題を、現在の最高のクローズドモデルにほぼ匹敵するほどよく処理できます。特に、V3.2は以前の一部のオープンモデル(Kimi-K2-Thinkingなど)よりもはるかに簡潔な出力を生成し、トークン使用量とユーザーの待ち時間を削減しながらも推論の深さを失いません。
DeepSeek-V3.2の内部では、670B MoEアーキテクチャのうち6850億のパラメータがトークンごとにアクティブ化されており、効率性と長いコンテキストでの使用に最適化されています。拡張された128Kトークンのコンテキストウィンドウをサポートしており、一度に数百ページのテキストを分析することが可能です。そのサイズにもかかわらず、V3.2は外部ツールの使用と推論を統合するよう微調整されています。実際、ツールを呼び出す過程で*「考える」*ことができるのは、DeepSeekの初めてのモデルです。ツールを使用する際には連想思考モードと標準モードの両方をサポートしており、計算機、コードインタープリター、検索エンジンなどを使用した多段階のツール拡張タスクを構造化して推論することができます。これにより、V3.2はコードを実行するコーディングアシスタントからウェブを閲覧する会話エージェントに至るまで、エージェントアプリケーションに特に強力です。
さらに高度な推論能力を必要とするユーザー向けに、DeepSeekは標準モデルに加えてV3.2-Specialeをリリースしました。Specialeバリアントは、オープンソースの推論を極限まで引き上げ、拡張された「思考」メカニズムを組み込み、さらに専用の数学定理証明モジュール(DeepSeek-Math-V2モデルから)を統合しています。その結果、開発者が「モデル能力の限界を探る」と表現するような、非常に複雑な問題解決に特化したモデルが誕生しました[4]。厳密な論理と数学のベンチマークでは、DeepSeek-V3.2-Specialeの性能はGemini-3.0-Proに匹敵し[4]、これらの分野の最先端にほぼ匹敵しています。
この主張は、Speciale が権威ある大会で成し遂げた成果によって裏付けられています。特に、国際数学オリンピック (IMO 2025)、中国数学オリンピック (CMO 2025)、ICPC 2025 世界大会 (プログラミング)、IOI 2025 (情報学) で金メダルレベルの結果を達成したと報告されています[5]。実際、ICPC コーディングコンテストでは、V3.2-Speciale のパフォーマンスは人間の銀メダリスト(2位)と同等であり、IOI ではトップ10 人間競技者と同レベルでした[5]。これらは AI モデルにとって驚くべき成果であり、エリート人間レベルの推論と問題解決能力を示しています。
注目すべき点として、Speciale は専門家向けのモデルであることです。長文推論(例:詳細な証明、複数ステップの論理、複雑なプログラミングチャレンジ)に優れていますが、カジュアルなチャットやクリエイティブライティングには最適化されていません。また、実行コストが高く、Speciale は解答にたどり着くまでにかなり多くのトークンを消費する傾向があります[6]。現在、DeepSeek は V3.2-Speciale を限定されたリサーチAPIを通じて提供しており(ツールの使用は無効)、日常会話よりも学術的または高リスクな推論タスクを目的としています。
DeepSeek-V3.2 のパフォーマンスを可能にする主な革新の一つが、新しい注意メカニズム「DeepSeek Sparse Attention (DSA)」です。従来のトランスフォーマーモデルは、コンテキストの長さが増加するにつれて、すべてのトークンが他のすべてのトークンに注意を払うため、二次的なコストがかかります。DSA は、きめ細かいスパース注意 パターンを使用することで、このボトルネックを打破します[7]。これは、現在のトークンと過去のトークンとの間の関連性スコアを迅速に推定する 「ライトニングインデクサー」 コンポーネントを導入し、最も関連性の高い上位 $k$ 個のトークンのみを選択して注意を払います[7]。つまり、モデルは無関係なコンテキストを無視し、長いシーケンスの重要な部分にのみ集中することを学習します。
このスパースアテンションデザインは、長いシーケンスに必要な計算量を O(L²) から O(L·k) に削減し、k は L よりもはるかに小さいです。DeepSeekの実装では、トレーニングの第2段階で k=2048(各トークンが2048の選択された過去のトークンに注目する)を使用しました。チームはDSAのために2段階のトレーニング戦略を採用しました。最初に「高密度ウォームアップ」で、数十億のトークンで完全な注意と共にライトニングインデクサーをトレーニングし、完全な注意の挙動を模倣することを学びました。その後、モデルをスパースモードに切り替え、トップ-$k$制約を適用してさらに数千億のトークンでトレーニングしました。その結果、精度を落とすことなく大きな効率向上が得られました。実際、V3.2-Exp(最終モデルの実験的な前身)は、新しいスパースアテンションを使用したにもかかわらず、ベンチマークの一連のテストでV3.1-Terminusと同等の性能を発揮しました[8]。
実際には、DSAにより長文書がもはや負担ではなくなります。内部テストでは、128K長の入力で2~3倍速く処理でき、メモリ使用量が約30~40%削減されました[9]。コストも劇的に下がります。DeepSeekの報告によれば、H800クラスター上での128Kコンテキストで、プロンプト(プレフィル)コストは百万トークンあたり~$0.70から~$0.20に、生成コストは~$2.40から~$0.80に下落し、長コンテキスト推論コストが3倍削減されました。公開APIでは、これらの節約がユーザーに対して50%以上の価格低下をもたらしています[10]。要するに、DSAによりV3.2は、以前のモデルに比べて、時間とコストを大幅に削減しながら非常に長い入力を処理でき、出力品質を損なうことはありません。
DeepSeek-V3.2 の高いパフォーマンスのもう一つの主要な要因は、大規模な強化学習 (RL) 微調整 が施されたことです。DeepSeek チームは、学習後の RL に、学習前に使用したコンピュートの 10% を超えるかつてない量のコンピュートを投入しました(670B 規模のモデルにとっても非常に大きなものです)。これは、RL 微調整の予算が通常ははるかに少ないオープンソース AI では非常に珍しいことです。その理由は、学習前は広範な知識を教えるのに対し、集中的な RL は複雑な目的(たとえば、多段階の問題解決、ツールの使用、制約下での指示の遵守など)にモデルを合わせることで高度な能力を引き出すことができるからです。[2]。
RL の安全なスケールアップのために、DeepSeek は独自の Group Relative Policy Optimization (GRPO) アルゴリズムを基に構築しました。この RL パイプラインには、いくつかの安定性と効率の改善が導入されました。
· 偏りのない KL 推定: チームは、KL 発散ペナルティに使用される元の K3 推定器の問題を修正し、無限の勾配更新を引き起こす可能性のある系統的な偏りを排除しました。これにより、ポリシーが参照ポリシーから遠く離れるときに発生するトレーニングの不安定性を防ぎました。
· オフラインシーケンスマスキング: RLトレーニングでは、大量の「ロールアウト」データが生成され、それが多くの勾配更新に再利用されることがよくあります(オフポリシーシナリオ)。DeepSeekは、各サンプルに対してロールアウトポリシーと現在のポリシーのKLダイバージェンスを計算しました。生成されたシーケンスのポリシーが現在のモデルから大きく逸脱している場合、そのシーケンスはトレーニング更新から除外されました(マスクされました)[11][12]。この巧妙な手法により、モデルは主にオンポリシーまたはオンポリシーに近いデータから学習し、安定性を向上させ、悪い軌道が学習を歪めるのを防ぎました。
· MoEのルーティングを維持する: DeepSeekのモデルは、Mixture-of-Expertsアーキテクチャを使用しており、異なる「エキスパート」(サブネットワーク)が異なるトークンを処理します。ここでの課題は、推論とトレーニングの実装にわずかな違いがあると、同じ入力に対して異なるエキスパートが選ばれる可能性があり、一貫性に問題が生じることです。DeepSeekは、推論中のエキスパートのルーティング決定をキャプチャし、RLの更新中に同じエキスパートルートを強制することでこれに対処しました。この「ルーティングを維持する」方法により、RL中に調整されたパラメータが、推論時に使用されるエキスパートと一致することが保証され、エキスパートのシャッフルによる予期せぬ問題を回避しました。
これらのアルゴリズム調整に加えて、RLのデータ体制は非常に野心的でした。DeepSeekは、特定のドメインまたはスキルに焦点を当てた専門モデルを一連の訓練し、それらすべてからの知識をV3.2に集約しました。例えば、数学(証明)、プログラミング、論理的推論、一般的なツールを活用したタスク、コードベースのエージェント、および検索ベースのエージェントのためにドメイン特化の専門家を微調整しました。これらの専門モデルは、必要に応じて*「考える」(思考過程)モードと「考えない」*モードの両方で訓練されました。これらの専門家を使用して、DeepSeekは各ドメインで高品質のデモンストレーションの巨大な合成データセットを生成し、それが最終的なV3.2モデルの監督に使用されました。この専門知識蒸留パイプラインは、85,000を超える複雑な指示にわたって、ステップバイステップの数学証明からソフトウェアデバッグセッションに至るまで、豊富な訓練信号をV3.2に提供しました。
DeepSeek-V3.2の注目機能の一つは、大幅に改善されたエージェント能力です。つまり、モデルが問題を解決するために計画を立て、推論し、ツールをマルチステップで使用する能力です。以前のバージョンのDeepSeekの推論モデルには大きな制約がありました。モデルが「考え中モード」(すなわち、思考の連鎖を生成中)にあるとき、外部ツールを呼び出すことができず、逆もまた然りでした。V3.2ではその障壁が取り除かれました。思考とツールの使用を完全に統合した最初のDeepSeekモデルであり、内部の推論の連鎖を維持しながら、対話中にツール呼び出し(例: コードの実行、ウェブ検索)が可能です。この結果、より強力で柔軟なエージェントの動作が実現されます。
これをサポートするために、DeepSeekチームはマルチターンタスクにおけるモデルのコンテキスト管理の仕組みを再構築しました。V3.2では、モデルの推論の痕跡(「思考」)が各ステップで消去されるのではなく、ツール呼び出しの一連の流れにわたって保持されます。新しいユーザーのクエリが到着したときのみ、システムは推論コンテキストをリセットします(ただし、会話内の関連するツールの相互作用履歴は保持されます)[14][15]。このアプローチにより、多くのトークンを節約し、問題に対して反復的にツールを呼び出しながら持続的な思考の連鎖をモデルに構築させます。例えば、ユーザーが複雑なコーディングの質問をした場合、モデルはステップを考え抜き、Pythonインタープリターを呼び出してコードをテストし、その結果に基づいて考え続け、場合によってはドキュメント検索ツールを呼び出すなどし、正しい解決策が確認されるまで最終的な回答を確定しません。すべての中間的な推論はタスクが完了するまでモデルに利用可能です。
DeepSeekはモデルにこの行動を明示的に促す**「コールドスタート」プロンプト**も提供しました。システムの指示は、特にプログラミングの課題のような複雑なタスクにおいて、最終的な答えを出す前に詳細な推論プロセスを(特別なトークンでマークして)最初に出力するようモデルを促します。このプロンプトエンジニアリングは、V3.2が難しいクエリに対して、(しばしば誤った)答えに直接飛びつくのではなく、思考の連鎖とツールの能力を活用すべきであることを認識させます。
V3.2のエージェントスキルセットの最も印象的な側面の一つは、そのトレーニング方法にあります。チームは自動環境合成パイプラインを構築し、モデルが学習するための現実的で挑戦的なシナリオを作り出しました。彼らは1,827のインタラクティブなタスク環境とモデルが解くための85,000以上の複雑な指示を生成しました[16]。これらのタスクは、*「解決が困難であり、検証が容易」*になるように設計されています。つまり、モデルは偶然に解決策を見つけるのが難しい広い探索空間を持つ問題を提示されますが、解決策を確認するための明確な基準があります。この特性により、強化学習に理想的です。モデルは試行錯誤(またはツールを使用)して解決策を提案し、それがすべての制約を満たしているかどうかを迅速に確認できます。
例えば、合成されたタスクの一つとして、3日間の旅行日程計画の問題がありました。これは、複数の制約(都市を重複しない、ホテルの費用に基づいて予算を動的に調整するなど)があり、モデルが有効な日程を単に推測するのは非常に難しいです。制約が組み合わせの問題を引き起こすからです。しかし、モデルが候補となる日程を考え出した場合、すべての制約が満たされているかを確認するのは簡単です。このような多くのタスク(旅行計画、スケジューリング、論理パズルなどの分野にまたがる)を訓練することで、V3.2は検索、最適化、マルチステップの推論を必要とする問題をよりうまく扱えるようになりました。この訓練手法は、モデルの新しい未知のエージェントタスクへの一般化を大幅に向上させました。
コーディングエージェントの領域で、DeepSeekはGitHubを活用し、数百万の実際の問題スレッドやプルリクエストを採掘しました。このデータから、数万の実行可能なコーディングチャレンジ環境を自動的に構築しました。このモデルは、バグレポートや機能リクエストを読み、ツールの支援を受けてコードベースをナビゲートし、修正や機能を実装する練習を行うことができました。これらの環境は複数のプログラミング言語(Python、Java、JavaScriptなど)をカバーしており、モデルに多様なソフトウェア問題を提供しました。別のパイプラインでは、検索ベースのQAエージェントを扱いました。複数のエージェントシミュレーションを用いて、DeepSeekは、一方のエージェントがロングテールエンティティについて難しい質問をし、もう一方のエージェント(検索ツールにアクセスできる)が答えを見つけて検証するデータセットを生成しました。このマルチステップ生成(質問構築 → ウェブ検索 → 答えの検証)は、V3.2に効果的な「リサーチアシスタント」としての能力を教えるための高品質なトレーニング例を生み出しました。
これらの努力のおかげで、DeepSeek-V3.2はツールを使用するエージェントタスクにおいて画期的な進展を遂げました。内部評価によると、V3.2は一連のエージェントベンチマークでオープンモデルとして最高スコアを達成し、クローズドモデルとの差を大幅に縮めました[17]。開発者は、V3.2がこれらのテストで特定のツールに明示的に調整されていなかったことを強調しており、これはエージェントのスキルが狭いベンチマークに限定されず、実世界のシナリオにも転用できることを示唆しています[18]。つまり、このモデルは特定のタスクに過適合するのではなく、一般的に考える方法やツールを使う方法を学んだのです。

DeepSeekの新しいモデルは、市場で最高のAIシステムと比べてどのような位置づけにあるのでしょうか?技術報告書や初期分析がその答えを提供します。総じて、DeepSeek-V3.2は数学的推論やコーディングタスクでトップクラスの性能を発揮し、V3.2-Specialeは複雑な推論においても最高クラスに匹敵しますが、オープンエンドのツール使用などではまだクローズドモデルが優位に立つ領域があります。以下に、競争環境を示す選択されたベンチマーク結果のスナップショットを示します:
表 1: サンプル推論ベンチマークのパフォーマンス(正確性%)
<small>出典: DeepSeek技術報告書[4]. GPT-5.1とGeminiの結果はレポートのグラフからの概算値です。Specialeは数学タスクでしばしばGeminiと同等またはそれ以上のパフォーマンスを示し、標準のV3.2はGPT-5レベルで、Geminiよりやや下回ります。</small>
ご覧のとおり、DeepSeek-V3.2は学術的な推論の課題において約束を果たしています。AIMEやHMMTのような数学コンテストでは、V3.2の精度は高度なGPT-5モデルと同等のレベルにあり、Geminiの最先端スコアにわずかに及ばないだけです。Specialeモデルはこれらの数学ベンチマークでGeminiを凌駕しています[4]、強化された「長考」アプローチの成果を示しています。これらの結果は驚くべきものであり、数学と形式的な推論は長い間オープンモデルの弱点と考えられていましたが、V3.2はオープンソースシステムがこの分野で最前線のパフォーマンスを達成できることを示しています[19]。
コーディングの面でも、DeepSeek-V3.2は優れていますが、競争は激しいです。SWE-Bench Verified テスト(モデルがバグ修正コードの差分を生成し、ユニットテストを通過するかを確認するテスト)では、V3.2は**約73%**のスコアを獲得し、その前身を大きく上回りました(V3.1は約66%[20]を記録)。また、MoonshotのKimi K2やAlibabaのQwen-3などの他のトップオープンモデルとほぼ同等です。実際、これらのオープンモデルは、OpenAIの古い120Bベースラインをこのコーディングベンチマークでわずかに上回っています[21][22]。これは、オープンモデルが実用的なコーディング能力でどれほど進歩したかを示しています。DeepSeek V3.2は、現実のバグを確実に修正し、実用的なコードを生成できるため、開発者の支援に非常に役立ちます。
しかし、最高のクローズドモデルに対しては、評価は混在しています。特定のコーディングタスクでは、GPT-5.1が依然として優位性を持っています。たとえば、より複雑なTerminal-Bench 2.0(マルチステップのCLIツール使用とエージェントループでのコーディングを評価する)では、初期の報告によれば、GPT-5やAnthropicのClaudeは、特に長時間のツール使用セッションでの持続的な信頼性においてDeepSeekを上回っています[23]。DeepSeek-V3.2の精度は、複雑なマルチステップエージェントタスクで低下し、それが非常に有能である一方で、完全に自律的なコーディングエージェントや長期的な問題解決においてはまだトップパフォーマーではないことを反映しています。同様に、包括的なツール使用ベンチマークであるMCP-UniverseやTool-Decathlonでも、V3.2はGPT-5やGeminiに大きく遅れを取っています[24]。OpenAIやGoogleのシステムは、依然として複雑なマルチツール計画をより一貫して実行しています。ギャップは縮まりましたが、V3.2はこれらのテストでオープンモデルの新たな高みに達したものの[17]、一般的なツール使用の熟練度においてクローズドモデルに真に匹敵するまでには、まだかなりの差があります。
要約すると、DeepSeek-V3.2は多くの分野で最前線に近い性能を発揮します。実際のコーディングタスクではGPT-5に匹敵する競争力を持ち、さらに高度な数学的推論ではGeminiに匹敵することもあります[19]。同時に、複雑なツールのオーケストレーションを含む超複雑な「エージェント」シナリオでは、GPT-5やGeminiが依然として優位を持つため、これらのモデルを完全に置き換えるものではありません[25][24]。このバランスの取れた見解は期待を設定する上で重要です:V3.2は効率的な推論とコーディングに最適化された分野で卓越しており、Specialeバリアントは推論を限界まで押し広げた際に可能なことを示しています。
印象的な成果を挙げているにもかかわらず、DeepSeekチームはV3.2シリーズの特定の制限について率直です。まず、トータルのトレーニングFLOPs(浮動小数点演算数)が一部の超大型クローズドモデルに比べてまだ少ないため、V3.2の世界知識の幅や希少な事実の記憶は、GPT-5のようなリーダーに遅れを取る可能性があります。つまり、より大規模な独自モデルが吸収しているようなマイナーな雑学や専門的な情報を知らないかもしれません。これは、オープンモデルが若干小規模または多様性に欠けるコーパスでトレーニングを行わなければならないことが多いという一般的なトレードオフです。
もう一つの課題は、トークン効率です。DeepSeekは、V3.2とSpecialeが、Gemini-3.0-Proのようなモデルがより簡潔な応答で達成できるのと同じ回答品質に到達するために、時に長い推論チェーンを生成する必要があると指摘しています[6]。実際には、V3.2を「思考モード」で使用することは、非常に難しい問題を解くためにより高いトークンコスト(および遅延)を発生させる可能性があります。モデルはステップを進める際に冗長になります。特にSpecialeは、非常に有能である一方で、トークン消費量が多いです。人間の専門家や洗練されたクローズドモデルがより短い回答を出せる場合でも、非常に詳細な証明や説明を生成するかもしれません。これが常にデメリットというわけではありません(詳細な推論が価値を持つ場合もあります)が、特定の用途においてはコストが高くなることがあります。
DeepSeek-V3.2は、現時点ではオープンエンドの会話の巧みさや創造的な文章作成の微調整が不足している点があります。そのトレーニングの焦点は、明らかに構造化された問題解決とエージェントに置かれていました。ユーザーは、そのスタイルが論理的で情報豊富であると観察していますが、GPT-4やClaudeのようなモデルと比べてカジュアルな対話では少し自然に話すことや想像力に欠けるかもしれません。これは意図的な選択であり、DeepSeekはこのリリースで研究タスク、コーディング、数学的能力を優先しており、その結果として一般的な会話能力がやや低下することもあったかもしれません。
将来的には、DeepSeekチームは継続的な進歩を示唆しています。V3.2技術報告書は、これらの欠点を将来の改善目標として公然と議論しています。すでにコミュニティでは、次の推論中心のモデルである可能性があるDeepSeek-R2モデルへの期待が高まっています。名前がそのままなら、R1およびV3.2の基盤を基にしたモデルになるかもしれません。(DeepSeekのフォロワーは、V3.2のリリースに対して半ば冗談で「R2はいつ来るの?!」と懇願しました。)R2が登場する場合、さらなるトレーニングの拡大、知識の注入の増加、トークン効率の向上技術を組み込むことで、ギャップをさらに埋めることが期待されています。
現在、DeepSeek-V3.2はオープンソースAIの世界で重要なマイルストーンとなっています。これは、疎な注意機構から大規模なRLファインチューニング、合成タスク生成に至るまでの巧妙なエンジニアリングによって、オープンモデルが推論とコーディングの最前線のパフォーマンスを達成できることを示しています。かつては数兆パラメータのクローズドモデルの独壇場と思われていた分野です。あるアナリストは「V3.2は、ほとんどの開発者が実際に作業するコードと数学の領域で、最前線の結果を提供する強力で低コストの思考・コーディングモデル」と述べています[26]。GPT-5やジェミニのようなユニバーサルAIソリューションを凌駕することはないかもしれませんが、その専門的な役割において、DeepSeek-V3.2は見事に成功しています[27]。そして何よりも重要なのは、それが自由に利用可能なモデルとして提供されていることです。広範なAIエコシステムにおいて、それは本当に貴重な贈り物であり、このChatGPTの記念日にふさわしいものです。
**情報源:**この記事の情報と引用は、DeepSeekの公式リリースノートおよび技術報告書[1][4][13][17]、AI出版物におけるニュース報道と分析[2]、初期ユーザーによるDeepSeek-V3.2の独立評価[19][24]、およびコミュニティの専門家[7][8]から得られたものです。すべてのベンチマークと比較は、該当するタスクにおけるモデル性能の現状(2025年12月)を反映しています。
[1] [3] [4] [5] [6] [13] [14] [15] [16] [17] [18] DeepSeek V3.2 正式版:強化エージェント機能、思考推論を統合 | DeepSeek API Docs
https://api-docs.deepseek.com/zh-cn/news/news251201
[2] DeepSeek、GPT-5に匹敵しジェミニ3プロに対抗する新たな推論モデルを発表
[7] [8] [9] [10] [11] [12] [21] [22] DeepSeek V3.2-Exp レビュー。DeepSeekの最新の実験モデル… | バーナクル・グース | 2025年10月 | Medium
https://medium.com/@leucopsis/deepseek-v3-2-exp-review-49ba1e1beb7c
[19] [23] [24] [25] [26] [27] DeepSeek V3.2 vs Gemini 3.0 vs Claude 4.5 vs GPT-5 | 著者: Mehul Gupta | Data Science in Your Pocket | 2025年12月 | Medium
[20] deepseek-ai/DeepSeek-V3.1 - Hugging Face