
著者: Boxu Li
2025年後半、3つのAI大手企業、Anthropic、OpenAI、Google DeepMindがそれぞれ次世代の大規模言語モデルを発表しました。AnthropicのClaude Opus 4.5、OpenAIのChatGPT 5.1(GPT-5.1シリーズに基づく)、そしてGoogleのGemini 3 Proは、AIの最先端を象徴しています。これら3つのモデルは、膨大なコンテキストの処理から複雑なコーディングや推論タスクの解決に至るまで、能力の大幅な向上を約束しています。この詳細な調査では、パフォーマンスベンチマーク、推論能力、コード生成、APIの遅延、コスト、トークンコンテキストウィンドウ、微調整とカスタマイズといった主要な側面でこれらのモデルを技術的に比較し、それぞれがどのように競争するかを理解します。
モデルプロフィール: Claude Opus 4.5はAnthropicの最新のフラッグシップモデルであり(Claude 2およびClaude 4シリーズの後継)、「コーディング、エージェント、コンピュータ使用において世界最高のモデル」と称されています[1]。OpenAIのChatGPT 5.1はGPT‑5シリーズのアップグレードで、スピードと推論の深さをバランスさせるために2つのモード(インスタントとシンキング)で提供されています[2]。GoogleのGemini 3 ProはGeminiファミリーの最上位インスタンスで、Google DeepMindが構築したマルチモーダルモデルであり、「当社の最もインテリジェントなモデル」として最先端の推論とツール使用を誇っています[3][4]。詳細なアーキテクチャは非公開ですが、これら3つすべてが大規模なトランスフォーマーベースのシステムであり、数兆のパラメータのオーダーである可能性が高く、広範なトレーニングと最適化(例:人間のフィードバックからの強化学習)で強化されています。以下に、それらを詳細に比較します。
知識と推論 (MMLU、ARC など): 広範な知識テスト、例えば MMLU (大規模マルチタスク言語理解) では、3つのモデルすべてが人間の専門家レベルに近いかそれ以上で動作します。Google は、Gemini 3 Pro が最も難しい質問セット (GPQA ダイヤモンド) で約 91.9% を達成し、LMArena のリーダーボードで Elo 1501 でトップに立ったと報告しています[5]。GPT‑5.1 も同様に MMLU で強力で、ある分析では GPT‑5.1 が MMLU で約 91.0% を記録し、Gemini 3 Pro とほぼ同等でした[6]。Anthropic は Opus 4.5 の公式な MMLU を発表していませんが、その前身 (Claude Sonnet 4.5) は 80%台後半の範囲でした[7]、これにより Opus 4.5 が学術知識タスクでそのレベルに近いことが示唆されます。非常に難しい推論試験では、違いが現れます。
人類最後の試験(過酷な推論テスト)では、Gemini 3 Pro が 37.5% (ツールなし)というスコアを達成し、GPT-5.1(約26.8%)やAnthropicの以前のモデル(約13.7%)を大きく上回りました[8]。同様に、ARC-AGI 推論チャレンジでは、Gemini 3 Pro が 31% (特別な「ディープシンク」モードでは最大45%)に達し、GPT-5.1(約18%)や以前のClaudeモデルをはるかに凌駕しました[9]。これらの結果は、Googleのモデルが現在、最も困難な推論ベンチマークでリードしていることを示しており、Geminiの高度な計画と問題解決の訓練を反映している可能性があります。OpenAIのGPT-5.1は知識と推論でそれほど遅れておらず、Anthropicの強みは別の分野にあります(コーディングで見られるように)。全体として、MMLUやPiQAのような標準ベンチマークでは3つのモデルは約90%の精度で接近していますが[5]、*「最前線」の推論テスト(複雑な数学、論理パズル)においては、Gemini 3 Pro は「博士号レベル」*のパフォーマンスで優位に立っています[10]。
コード生成とソフトウェアベンチマーク: AnthropicのClaude Opus 4.5は、明確にコーディングと「エージェンティック」なコンピューター利用タスクをターゲットにしており、現在コードベンチマークでトップを誇っています。Anthropicの内部評価では、SWE-Bench(ソフトウェアエンジニアリングベンチ)検証済みで、Opus 4.5は**80.9%**の成功率を達成し、最先端モデルの中で最高の成績を収めました[11]。この結果は、OpenAIのGPT‑5.1-Codex-Maxモデル(77.9%)やGoogleのGemini 3 Pro(76.2%)をわずかに上回っています[11]。Anthropicの発表からの下記のチャートは、Claude 4.5が実世界のコーディングタスクでどれだけリードしているかを示しています。
Claude Opus 4.5は、SWE-Bench検証済み(実世界のコーディング問題)で最高スコアを達成し、OpenAIのGPT‑5.1 CodexやGoogleのGemini 3 Proをわずかに上回っています[11].
この結果が注目に値するのは、GPT-5.1のCodex-Maxバリアント自体が、コーディングにおいて大きな改善をもたらしたからです(OpenAIがソフトウェアエンジニアリングのタスクとツールの使用を基に訓練しました)[12]。それにもかかわらず、Opus 4.5は数パーセントの差で先を行きました。GoogleのGemini 3 Proも後を追っており、これらのコーディングエージェントベンチマークで前任のGemini 2.5を「大幅に上回る」と評価されています[13]、しかし新しいClaudeには現時点で遅れをとっています。実際的には、これら3つのモデルはすべて非常に優れたコーディングアシスタントであり、複雑なタスクのための正確なコードの生成、大規模なコードベースのリファクタリング、さらには開発環境の操作が可能です。しかし、Anthropicのコード品質と効率へのフォーカスは明らかで、開発者はClaude Opus 4.5がコーディングにおいて「最先端のタスク計画とツールの使用」を示し、より少ないトークンで問題を解決すると報告しています[14][15]。実際、AnthropicはOpus 4.5が複数ステップのコーディングワークフローを「これまでのどのモデルよりも効率的に」処理し、同じタスクで最大65%少ないトークンを使用しながら、より高い通過率を達成すると述べています[16]。この効率とコーディングスキルにより、Claude 4.5はソフトウェアエンジニアリングのユースケースにおいて非常に強力です。
その他のベンチマーク: 各モデルにはそれぞれの得意分野があります。Gemini 3のマルチモーダルな強みは画像+ビデオの推論ベンチマークで反映されています。例えば、MMMU-Pro (Multimodal MMLU) と Video-MMMU では、Gemini 3 Proはそれぞれ**81%と87.6%のスコアを記録し、新たな最先端を確立しました[17]。また、SimpleQA Verifiedで72.1%*を達成し、オープンエンドのQ&Aにおける事実の正確性が向上したことを示しています[18]。一方、OpenAIのGPT‑5.1は会話の質に優れ、指示に従う精度が前モデルよりも向上しています。特定のベンチマークには縛られませんが、OpenAIはGPT‑5.1の全体的な知能とコミュニケーションスタイルが「意味のある」改善を見せたと述べています[19]。多くの観察者は、GPT‑5.1が日常のタスクで「より温かく、より知的で、指示に従うのが上手」だと感じており、これは純粋な正確性のメトリクスには現れないかもしれませんが、実際の使い勝手を向上させています[2]。AnthropicのOpus 4.5もコーディング以外の実践的なタスク向けに設計されており、テスターは「複雑なマルチシステムのバグの修正を見つける」ことや「曖昧さを処理し、トレードオフについて推論する」*ことができると評価しています[20]。要するに、ベンチマークは物語の一部を示すに過ぎません。3つのモデルすべてが多くの学術テストで人間レベル以上の性能を発揮しています。Gemini 3は難しい論理的およびマルチモーダルな課題において最前線を押し進め、Claude 4.5は複雑なコーディングとツール使用のタスクで優れ、GPT‑5.1は強力なパフォーマンスと洗練された会話能力のバランスを提供します。
これらの新しいモデルのテーマの一つは、長期的な推論の向上です。これは複雑な問題を複数のステップや長期間にわたって解決する能力を指します。OpenAIのGPT‑5.1は、「複雑なタスクにおいてより粘り強い」[2]という専用の**「思考」モードを導入しました。GPT‑5.1の思考モードは、難しいクエリに対して実際に「長く」考える(つまり、内部計算やステップをより多く割り当てる)ことで、多段階の論理を必要とする問題を解決できるようにしています。Googleも同様のアプローチを取り、Gemini 3 Deep ThinkをGemini 3 Proのオプションモードとして導入し、複雑な問題において*「知性の限界をさらに押し広げる」*としています[21]。テストでは、Gemini 3 Deep Thinkは最も困難なベンチマークで通常モードを大幅に上回る成績を収めました(例:Humanity’s Last Examのスコアを37.5%から41.0%**に、ARC-AGIを45.1%に向上)[22]。これは、モデルが「考える時間」を与えられると非常に難しいタスクを内部で推論できることを示しています。
AnthropicのClaude Opus 4.5は、拡張された推論を強調しています。これは、以前のターンからの*「思考ブロック」を自動的に保存し、長いセッション全体で思考の流れを維持します[23]。以前のClaudeモデルはこれらを削除していましたが、Opus 4.5は中間的な推論を引き継ぐことができ、一貫したマルチステップ作業に不可欠です。Anthropicはまた、Opus 4.5に*「労力」パラメータ**を追加し、モデルが推論や説明に費やすトークンの数を直接制御します[24]。High Effortでは、Opusは非常に詳細な分析を行い(複雑なデバッグや深い研究に役立ちます)、Low Effortでは迅速な大量タスクに適した簡潔な回答を提供します[25]。これは、推論の深さと速度のバランスを調整するための効果的なツールです。
実際には、これらの機能は各モデルが持続的な推論タスクを以前の世代よりもはるかにうまく処理できることを意味します。例えば、OpenAIはGPT‑5.1-Codex-Maxが数時間にわたって自律的に動作し、コードを反復的に改良し、人間の介入なしにバグを修正できると報告しました[26][27]。作業中に文脈を刈り込んで凝縮する「コンパクション」と呼ばれる技術を使用し、単一のセッションで数百万のトークンにわたって一貫した作業を可能にします[28][29]。早期テスターのSimon Willisonは、Anthropicのモデルも同様に長時間のコーディングセッションを持続できると指摘し、Opus 4.5を使用して約30分の自律コーディングを行い、より小型のClaude Sonnet 4.5も効果的に作業を続けることができました[30][31]。Gemini 3はその巨大なコンテキストウィンドウと統合されたツールの使用により、IDEやLinuxターミナルで実行可能なエージェントを介して「複雑なエンドツーエンドタスクを計画し実行する」ように明確に設計されています[32][33]。Googleの自社製品では、GeminiベースのAIが長文のドキュメントやビデオを分析し、フラッシュカードやステップバイステップの計画のような構造化された出力を生成できます[34][35]。
結論: 3つのモデルはすべて、推論がより持続的かつ自律的になりました。これらは多くのステップにわたる複雑なワークフローを処理できます。OpenAIとGoogleは、必要に応じて推論を強化するためのトグル(Thinking mode, Deep Think)を提供しています。AnthropicのOpusはデフォルトで高い推論レベルで動作し、開発者に徹底性と遅延の間のトレードオフを手動で制御する機能を提供します[24]。これは設計の収束を反映しており、常にワンショットで応答するのではなく、これらのモデルは内部で*「長期間考える」*[36][37]というシミュレーションを行い、より困難な問題に取り組み、ツールを効果的に使用し、真のエージェントのような動作に近づいています。

コーディング能力: 前述の通り、Claude 4.5 は現在、測定されたコーディングベンチマークで GPT-5.1 や Gemini 3 を上回っています[11]。しかし、3つのモデルすべてがコード生成に非常に優れており、1、2年前のモデルをはるかに上回っています。例えば、OpenAI の GPT-5.1-Codex-Max は、コードレビュー、プルリクエストの作成、コーディングQ&Aの回答など、*「実世界のソフトウェアエンジニアリングタスク」で訓練されています[12]。複数のファイルにまたがって作業でき、Windows環境にも対応しています(OS固有のタスクでの訓練を示唆する新しい機能)[38][39]。一方、Claude Opus 4.5 は、Anthropic の顧客によれば、複数のコードベースとエージェントにまたがる複雑なリファクタリングを担当していました[40]。Claude を IDE(例: Claude Code)で使用する開発者は、数十のファイルにわたる変更を最小限のエラーで調整できることを発見しました[41]。Google の Gemini 3 もソフトウェア開発で輝いており、Google によって「これまでで最高のバイブコーディングとエージェンティックコーディングモデル」*と評され、Elo 1487 のWebDevベンチマーク(ウェブ開発タスク)でトップを獲得しました[13]。Terminal-Benchテスト(Linuxターミナルをモデルが操作するライブテスト)では、Gemini 3 Pro が 54.2% を記録し、GPT-5.1(~47%)や以前のAnthropicモデルを上回りました[42][43]。これは、Gemini がツール/コマンドを使用して自律的にコーディングタスクを達成することに特に強いことを示唆しています。
ツール使用とエージェント: 生のコード生成を超えて、重要なフロンティアはエージェント的行動です。つまり、モデルがツールを使用したり、自律型エージェントとして行動することです。この点で、3社はそれぞれ異なる方法でこれを実現しています。OpenAIのプラットフォームは関数呼び出しをサポートしており、「OpenAIエージェント」を導入しました。これにより、GPT-5.1がツール(ウェブブラウザ、コードインタープリタなど)を呼び出してタスクを完了することができます。GPT-5.1はまた、長時間のツール使用セッション中に作業記憶を自動で*「圧縮」することができ、コンテキストが切れることがありません[28][29]。GoogleはGemini 3を中心にGoogle Antigravityというエージェント指向の環境を構築しました[32]。このシステムでは、Geminiエージェントがコードエディタ、ターミナル、ブラウザに直接アクセスできます。彼らは「自律的に計画し、複雑なエンドツーエンドのソフトウェアタスクを実行」*することができ、開発プラットフォーム内でコードを書き、それを実行し、テストし、反復することができます[44][33]。これはGeminiのマルチモーダルスキルによって強化されています。例えば、Geminiエージェントはスクリーンショットやデザインモックアップを入力として読み取り、UIを再現するコードを生成して実行することができます。
Anthropicは、Claudeの「コンピュータ利用」ツールをアップグレードしました。Claude Opus 4.5は、詳細な検査のために画面の特定領域の高解像度なズームスクリーンショットをリクエストできるようになりました。AnthropicのClaudeアプリとSDKでは、仮想コンピュータを操作できます。ボタンをクリックしたり、スクロールしたり、入力したりすることができ、新しいズーム機能は、以前は見にくかった小さなテキストやUI要素を読むのに役立ちます。bashシェル、コード実行、ウェブブラウザなど、ClaudeのAPIで利用可能なツール一式と組み合わせて、Claude 4.5は「コンピュータを使うエージェント」で優れた性能を発揮するように設計されています。初期テスターは、Opus 4.5が「これまでに見た中で最も優れたフロンティアタスクの計画とツールの呼び出し」を示し、マルチステップのワークフローをより少ない行き止まりで実行すると報告しています。例えば、Warp(開発ツール会社)は、Claude 4.5を使用してTerminal Benchで15%の改善を見せ、持続的な推論がより良い長期計画を可能にすると評価しました。
要約すると、コーディングとツールの使用に関しては次の通りです。- Claude Opus 4.5は、純粋なコーディング成功率でわずかに先行しており、非常に効率的です(タスクを大幅に少ないトークンで解決)[53][54]。大規模なリファクタリング、コード移行、トークンコストが重要な場面に最適な選択であり、テストではトークン使用を50–76%削減する最適化が行われています[55][54]。- GPT‑5.1 (Codex-Max)は非常に近い競争相手で、開発者のワークフロー(CLI、IDE拡張)と深く統合されています[56]。信頼性の高いコーディングパートナーとして知られており、時間をかけて作業でき、現在では複数のコンテキストウィンドウをネイティブでサポートしており、プロジェクトのチャンクをシームレスに連続して処理可能です[28]。OpenAIのエコシステムにより、関数呼び出しを通じてツールの統合が容易です。- Gemini 3 Proは、Googleの検索、データ、マルチモーダル入力の統合力をコーディングに活かしています。コードを書くことに加えて、ソフトウェア(ターミナル、ブラウザなど)を効果的に操作できるのが特徴です。Googleのマルチモーダルにおける強みは、Geminiが視覚的コンテキスト(デザインモックアップ、図)をコーディングプロセスに直接組み込めることにあり、これらのモデルの中でのユニークな能力です。
3つのすべてが、コードを書くことだけでなく自律したエンジニアとして行動するAIに向けて進んでいます。これは、経験から学び、自己のスキルを改善するAIエージェントの報告に現れています[57][58]。ある顧客は、Claude 4.5エージェントが4回の反復を経てタスクで最高のパフォーマンスに達したと述べており、他のモデルは10回の反復を経てもそれに匹敵しなかった[59][60]。このような適応的でツールを使う行動は急速に進化しており、これらのモデルのそれぞれが最前線に立っています。
大きなコンテキストウィンドウはAnthropicのClaudeの特徴であり、Opus 4.5もその傾向を継続しています。入力には200,000トークンのコンテキストウィンドウを持ち、出力には最大64kトークンをサポートします[61]。これは、何百ページものテキストや複数の長いドキュメントを一度に入力するのに十分です。実用的には、200kトークン(約150,000語)は、例えば、コードベース全体や本をClaudeに読み込んで分析することを可能にします。Anthropicはこれを使用して「無限」のチャットセッションを可能にし、壁にぶつかることなく長い会話をサポートします。Claude 4.5は非常に長い会話をサポートし、ほとんどのモデルよりも多くの履歴を記憶することができます[62][63]。
Googleは、今やGemini 3 Proの1,048,576トークンコンテキストウィンドウ(約100万トークン)でこれを追い越しました[64][65]。これは桁違いの進歩です。Gemini 3は「広大なデータセットを理解できます…テキスト、音声、画像、ビデオ、PDF、さらにはコードリポジトリ全体を含む1Mトークンコンテキストウィンドウを持つ」[64][65]。基本的に、本や数時間の音声/ビデオを入力として受け取ることができます。実際、モデルは本当にマルチモーダルな入力をサポートし、長いPDFや複数の画像、音声クリップを1つのプロンプトで与えることができ、これらをエンコードした後の合計トークンが制限内であれば可能です[64][66]。Googleのドキュメントには、1つのプロンプトで900枚の画像または大きなビデオ(フレームをトークンとしてエンコード)を処理できると記載されています[67]。この巨大なコンテキストは、大規模なコードベースのレビュー、長大な法的契約の分析、数時間分のトランスクリプトの要約などのタスクにおいて画期的です。
OpenAIのGPT-5.1は、1Mのような大きな固定コンテキストを明示的に宣伝していませんが、以前の制限を超えるための技術を導入しました。GPT-4は128kのコンテキストバリアントを提供していました(ChatGPT EnterpriseやGPT-4 32kモデルで)、GPT-5は特定の設定で最大400k以上のトークンを処理できる可能性があるというヒントがあります[68][69]。より具体的には、OpenAIの*「コンパクション」メカニズムにより、GPT-5.1-Codex-Maxは会話やタスク履歴の古い部分を継続的に要約し、長いセッションでも無制限の作業メモリを効果的に提供します[28][29]。例えば、GPT-5.1はコンテキストを定期的に圧縮してスペースを確保し、「タスクが完了するまでこのプロセスを繰り返す」*ことで24時間以上の作業が可能です[70][71]。したがって、GPT-5.1の生のウィンドウはプロンプトごとに128kトークンのオーダーであるかもしれませんが、その設計によりコンテキストを連鎖させることでそれを超えることができます。OpenAIはまた、コンテキストキャッシング機能や長期会話メモリをChatGPTに展開しており、モデルが名目上のトークン制限を超えても対話の初期部分を記憶できることを示しています。
文脈容量をまとめると: - Claude Opus 4.5: ~200Kトークンウィンドウ(入力)をネイティブに[61]。これは非常に高く、ほとんどの長文タスクに適しています。Anthropicの価格設定にはこれも考慮されており、1回のリクエストで200Kを超えると「1Mコンテキスト」レートで課金されます[72][73](実験的な1Mモードもある可能性があります)。 - GPT‑5.1: 現在のChatGPT Proの展開では公式に最大128Kですが、自動コンテキスト圧縮により、セッション全体で実質的に数百万トークンを可能にします[28][29]。これは固定された大きなウィンドウではなく、動的な長文サポートと考えることができます。 - Gemini 3 Pro: 主要なモデルの中で最大の1Mトークンウィンドウを持ち、マルチモーダルコンテキスト(テキスト+画像+音声+ビデオを1つに)に特化しています[64][75]。これにより、「モデルにビデオ講義全体といくつかの研究論文を入力し、要約を生成したり質問に答えたりする」といった分析が、小さなコンテキストでは不可能だったものも可能になります。
これにより、これらのモデルではメモリ制約がこれまで以上に障害になりにくくなっています。以前のモデルが長文の冒頭からの詳細を思い出すのに苦労していたのに対し、これらのモデルは一度に大量の情報を保持できます。これは特に、長距離推論(例えば、多くの入力部分を参照する必要がある解決策を見つけること)や数十回のターンにわたるオープンエンドの対話のようなタスクに有益です。
大きな文脈や重い推論を伴うため、これらのモデルは遅いと予想されるかもしれませんが、各プロバイダーは遅延を管理する方法を導入しています。OpenAIのアプローチは「モデルの差別化」です。GPT-5.1 インスタントとGPT-5.1 シンキングです。インスタントモデルは、素早く会話的な応答に最適化されており、「明快で役立ちつつも、その遊び心で人々を驚かせることが多い」モデルです。日常的なチャットにおける低遅延オプションとして効果的です。一方で、シンキングモデルは複雑なクエリに対応するためのワークホースで、簡単なタスクでは高速化されていますが、難しいタスクではより深い推論を行うため時間がかかります。この二層のモデルシステムにより、ユーザーは速度と精度を自由に切り替えることが可能です。実際、GPT-5.1 インスタントは非常にレスポンシブに感じられ(GPT-4 ターボと同等かそれ以上に高速)、一方でGPT-5.1 シンキングは難しい問題を解くときにより長い時間がかかりますが、より優れた答えを提供します。
Anthropic のソリューションは、前述の通り、Claude 4.5 のエフォートパラメータです[24]。デフォルトでは「高」に設定されており、これはモデルが徹底性を最大化することを意味します(これによって待ち時間が増える可能性があります)。開発者はこれを中や低に調整できます。Anthropic のデータによれば、中エフォートでは、Opus 4.5 は以前と同じ精度でタスクを解決できるが、はるかに少ないトークンを使用するため、応答が速くなるとされています[53][54]。ある例では、中エフォートが SWE-Bench で Claude Sonnet 4.5 のパフォーマンスに匹敵しながら、76% 少ない出力トークンを使用しました[53][54] ― つまり、遅延とコストが大幅に低減されることを意味します。したがって、アプリケーションが迅速な回答を必要とする場合は、エフォートを低く設定すると、より短くても有能な応答が得られます。高エフォートでは、Claude は少し時間がかかるかもしれませんが、非常に詳細な出力を生成します。初期ユーザーの報告によると、高エフォートでも Claude の応答時間は*「安定して予測可能」*であるとされていますが、当然ながら長い応答は生成に時間がかかります[79]。
Google の Gemini 3 Pro には、以前の Gemini 2 の「thinking_budget」設定を置き換える形で、「thinking_level」パラメータ(「low」または「high」の値)が導入されています。この thinking_level により、ユーザーは Gemini が最小限の内部推論を行うか(速度重視)、最大限の推論を行うか(品質重視)を選択できます。また、Google はマルチモーダル入力用に media_resolution 設定も提供しており、画像や動画を低解像度で処理して結果を速めるか、高解像度で処理して視覚精度を高めるかを選択できます(その分トークンと遅延が増します)。これらのコントロールは、1M トークンや大きな画像を処理することが本質的に遅いことを認識し、開発者がモデルが「考える」程度やメディアをどれだけ細かく分析するかを調整することで速度を調整できるようにしています。
GPT-5.1 vs Claude vs Gemini の公的なレイテンシーベンチマークはありませんが、逸話的な証拠からは次のことが示唆されています:
要約すると、現在、3つのモデルすべてがスピードと推論の間でトレードオフを可能にしています。これらのモデルは、深い思考が不要な場合に待たされることがないよう、内部のレバーやモデルのバリエーションを導入しています。一般的なアプリケーション(短いプロンプト、中程度の複雑さ)では、各モデルがほぼリアルタイム(数秒)で応答できます。非常に大きなまたは複雑なジョブの場合、マルチ秒またはマルチ分の実行時間が予想されますが、設定を通じてそれをコントロールできます。これは、コンテキストウィンドウやタスクが大きくなるにつれて必要な進化であり、より複雑な問題に取り組んでいるにもかかわらず、これらのモデルがインタラクティブな設定で使いやすいままであることは励みになります。
競争は能力だけに限られず、コストも大きな要因です。そして、ここで積極的な動きが見られます。実際、AnthropicのOpus 4.5のローンチには、劇的な値下げが伴いました。Opus 4.5のAPI呼び出しは、入力トークン100万個につき5ドル、出力トークン100万個につき25ドルです[85][86]。これは以前のOpus 4.1の価格の1/3です(以前は100万個につき15ドル/75ドルでした)[85]。Anthropicは、Claudeを開発者にとってより魅力的にするために、意図的に価格を引き下げたことを認めており、過去のOpusモデルは費用が高すぎたと述べています[87][88]。新しい価格設定では、大規模なタスクにClaudeを使用することがはるかに現実的になり、今ではAnthropicの小規模モデル(Claude Sonnet 4.5は100万個につき3ドル/15ドル)よりもわずかに高いだけです[89]。
どのように比較されるでしょうか?OpenAIのGPT-5.1ファミリーは実際、トークンあたりのコストが安いです。GPT-5.1のAPIコールは、ベースモデルで約100万入力トークンあたり$1.25、100万出力トークンあたり$10です[89]。GoogleのGemini 3 Proはその中間で、標準の200kコンテキストレベルで約100万入力トークンあたり$2、100万出力トークンあたり$12です[89]。(特に、Googleは200kトークンを超えて最大1Mコンテキストを利用する場合、100万あたり約$4/$18のプレミアムを請求する予定です[90]。)これらの数字は、OpenAIが現在、トップクラスのモデルに対して最も低いトークンごとの価格を提供していることを意味します。例えば、1000トークンの回答を生成するには、GPT-5.1では約$0.012、Claude 4.5では約$0.025かかります——つまり、約半分のコストです。Googleの場合は約$0.015です。しかし、コストは効率と天秤にかける必要があります。あるモデルがタスクをより少ないトークンや試行回数で解決する場合、全体のコストを抑えることができます。AnthropicはOpus 4.5がトークン効率が非常に高く、特定のタスクで使用量(およびコスト)を50%以上削減しつつ、以前の精度を維持できることを強調しています[53][54]。ある初期ユーザーは、「Opus 4.5の中程度の推論はSonnet 4.5の品質に匹敵し、76%少ないトークンを使用し…約60%コストが低い。」と指摘しています[91]。したがって、開発者がClaudeにトークンあたりのコストを少し多く支払うかもしれませんが、もしClaudeがより少ないトークンで解決に至るなら、全体のコスト差は縮小します。
また、アクセシビリティの扱い方にも注目する価値があります。 - Claude Opus 4.5 は API(Claude for Pro/Max/Team ティア)および AWS、Azure、Google Cloud などの主要なクラウドプラットフォームで利用可能です[92]。また、Opusをインタラクティブに使用できる Claude Pro コンシューマーアプリもあります。話し合ったコストは API 使用料に適用されます。 - ChatGPT 5.1 はエンドユーザーに対して ChatGPT(Plus および Enterprise ユーザーは 2025年11月から GPT-5.1 を利用可能)を通じて提供され、開発者向けには OpenAI API を通じて利用可能です。OpenAI の ChatGPT Plus での GPT-5.1 使用料金は実質的に定額サブスクリプションであり、API はトークンごとの従量課金制です(上述の通り)。また、ChatGPT Enterprise では一定の制限内で無料の使用が提供されています。 - Gemini 3 Pro は Google の Vertex AI プラットフォームを通じて(現在は プレビュー モデルとして)[93]、Gemini API および Gemini Chat アプリや AI Studio などの製品で利用可能です[94][95]。Google はサイトでトークン価格を公表していませんが、報告によると、API 価格は言及された範囲内(トークンごとに $2/$12)で、PaLM 2 の価格設定に似ています。Google はまた、消費者向け機能(例:検索生成体験、Google Workspace AI ツール)に Gemini を統合しており、エンドユーザーはトークンごとに直接請求されません。
要約すると、OpenAI はフロンティアモデルの API 使用料として最も安い価格を提供しており、Anthropic は競争力を維持するために大幅に価格を下げました(Opus は以前のコストの 1/3 になりましたが、それでも OpenAI のレートの約 2 倍です)[89]。Google の価格はその二つの間に位置しており、巨大なコンテキスト実行には追加のコストがあります[89]。どのモデルを使用するかを決定する企業にとって、クエリごとのコストはタスクに依存します: 長いコーディング作業は、Claude の効率性の主張が本当であれば、3 社で同様のコストになるかもしれませんが、短い Q&A は GPT‑5.1 で最も安くなる可能性があります。競争が価格を下げ、高度な AI がよりアクセスしやすくなるのは素晴らしいことです。
注目すべき点の一つは、微調整(カスタムデータでモデルの重みを更新するという従来の意味での)が、これら最新のモデルにはまだ利用できないということです。Claude Opus 4.5もGemini 3 Proも、現在のところユーザーによる微調整をサポートしていません[96][97]。OpenAIも、GPT-5.1の微調整をリリースしていません(彼らのAPIドキュメントには「微調整:未対応」とGPT-5シリーズモデルについて記載されています)[97][98]。これは理解できます:これらのモデルは非常に巨大で、慎重に調整されているため、オープンな微調整は安全性や容量の問題を引き起こす可能性があります。
その代わりに、プロンプトベースのカスタマイズが強調されています。例えば、OpenAIは5.1アップデートでChatGPTの挙動を個別に設定する新しい方法を導入しました。彼らは**「パーソナリティプリセット」やトーンコントロールを追加し、ユーザーは開発者、チューター、懐疑的などの事前定義されたスタイルから選択したり、アシスタントの応答を形作るためのカスタム指示を設定したりできます[99][100]。これはモデルの重みを微調整することではありませんが、特定の方法でモデルを動作させる柔軟なメカニズムです。同様に、AnthropicはConstitutional AIスタイルのコントロールやシステムプロンプトを提供し、Claudeを誘導します。そしてOpus 4.5では「推論の連続性を維持」し、長いセッションを通じて複雑な役割や指示をよりよく追従できるとされています[23]。GoogleのGemini APIは、開発者がシステムメッセージを提供してコンテキストや役割を設定できるようにし(OpenAIのシステムプロンプトに似ています)、暗黙的および明示的なコンテキストキャッシングを組み込んで、関連する背景情報でモデルにバイアスをかけることもできます[101][102]。基本的に、これらの巨人を直接微調整することはできませんが、実行時にデータを供給することができます。例えば、大量のコンテキストウィンドウにドキュメントを詰め込んだり、リトリーバル強化プロンプティングを使用したりすることで。GoogleのVertex AIは、Geminiと連携してエンタープライズドキュメントを必要に応じて引き出すRAG エンジン(リトリーバル強化生成)**を提供し、モデルのコアを変更せずにドメイン固有の質問に答えるなどの微調整の多くの目的を達成します[103]。
特筆すべきは、OpenAIが小型の兄弟モデル(GPT-5 Nanoなど)を導入し、一部のモデル(openai-o3やo4-miniなど)をオープンソース化したことです。これらの小型モデルは、専門的なタスクのために微調整をサポートし、GPT-5の蒸留版として機能するかもしれません。しかし、ここで比較されているフラッグシップモデルに関しては、現在のところカスタムデータで完全なモデルを再トレーニングすることはできません。その代わりに、プロンプトエンジニアリング、システム指示、外部知識の取得、組み込みパラメータ(トーンや思考レベルなど)を使用して、モデルの出力をニーズに合わせるという戦略が取られています。
研究の観点からは、将来的にこれが変わる可能性があります。LoRA(低ランク適応)や他のパラメーター効率の良い微調整がこれらの大規模モデルで可能になるかもしれません。しかし、現時点では、「微調整」は実質的にプロバイダー自身のトレーニングパイプラインに限定されています。例えば、OpenAIはGPT-5.1をGPT-5ベースから追加の強化学習と指示調整を行って微調整しました(彼らはGPT-5.1が*「我々の基礎的推論モデルのアップデートに基づいて構築されている」*と述べています)、AnthropicはClaudeを整合するために憲法微調整のような技術を使用しました。エンドユーザーや開発者としては、これらのモデルをAPIインターフェースを介してカスタマイズすることが主で、重みの更新ではありません。
公式の詳細はほとんどないものの、いくつかのデザイン哲学の違いが見えてきます:- Claude Opus 4.5 はおそらくその前身と同様に密集したトランスフォーマーモデルです。Anthropicはパラメータ数を公表していませんが、以前のClaudeバージョンはGPT‑4と同規模と噂されています。Anthropicの焦点はデータやスキルにあるようで、Claude 4.5をコーディング、ツールの使用(シェル、ウェブ)、対話に重きを置いてトレーニングし、高度なアラインメント技術(人間のフィードバックを用いた強化学習と「Constitutional AI」メソッド)を適用しました。
その結果は「理解している」と感じさせるモデルで、実世界のタスクにおいてより良い判断をしているといわれています[20][106]。興味深い構造的側面の一つは、Claudeが長い文脈をどのように処理するかです。Anthropicは、おそらく位置エンコーディング戦略や注意メカニズムの調整(ALiBiや集中注意のような)を用いて200kトークンに達していると思われます。また、思考の痕跡が保持されているという事実は、自身の思考の連鎖を今後の入力の一部として扱うアーキテクチャを示唆しています[23]。Claude 4.5はまた、クラウドハードウェア上で提供されており、高速な行列演算とおそらくモデル並列処理によって大きな文脈を効率的に処理します。 - OpenAI GPT‑5.1(およびGPT‑5)は、基礎モデルを専門のヘッドやモードと組み合わせたものと考えられています。
OpenAIのブログによると、GPT-5は*「統合システム」であり、高速モデルと「難しい質問のためのより深い推論モデル(GPT-5 Thinking)」から構成されていることが示唆されています[107]。GPT-5のアーキテクチャには、複数のモジュールや、簡単なクエリを小さなサブモデルに、難しいクエリを大きなモデルにルーティングするMixture-of-Expertsスタイルのスイッチが含まれている可能性があり、それにより速度とコスト効率が向上する可能性があります。「ChatGPTで利用可能な2つの更新バージョン(InstantとThinking)」*[99]の言及もこれを支持しています。内部では、GPT-5はおそらく数兆のパラメータや複数のエキスパートモデルを持っていると考えられます。初期の噂では、GPT-4がそれぞれ約111Bパラメータの16のエキスパートを持っていたと言われています(未確認ですが)。GPT-5はパラメータをスケールアップするか、より効率的なトレーニングを行っている可能性があります(OpenAIは新しい最適化技術とより大きなクラスターに投資しました)。また、入力モダリティがいくつか拡張されており、GPT-5は画像を入力として受け入れることができ(GPT-4のビジョンに続いて)、限定的な形で他のモダリティも受け入れるかもしれません[68][108]。
しかし、OpenAIは実際にはマルチモーダルに対してより慎重で、完全に融合するのではなく、Sora(音声やおそらく他のモダリティのモデル)のようなものを分けて扱っています。そのため、GPT-5.1は主にテキストベースのモデルであり、いくらかのビジョン機能を持っています。 - Google Gemini 3 Proは、最初から明示的にマルチモーダルです。[109][110]。Geminiファミリー(Gemini 1, 2, 3)は、Google DeepMindによってテキスト、ビジョン、その他を統合したモデルとして設計されました。おそらく、モデルのアーキテクチャ内にビジョンエンコーダーや音声処理を組み込んでいると考えられます。
Google の研究報告書や公開されているヒント(もしあれば)によれば、Gemini はトランスフォーマーのバックボーンを組み合わせて使用している可能性があり、言語用とビジョン用にそれぞれ一つずつ、共有表現空間を持つかもしれません。マルチモーダルベンチマークでの最先端の結果(例えば、[17])は、非常に緊密な統合を示唆しています。もう一つの側面はツールの使用です。DeepMind は以前から適応型エージェント(例えば AlphaGo やロボティクスなど)に関する研究を行っており、Demis Hassabis はこれらの分野からの技術が Gemini の設計に影響を与えると示唆していました。例えば、Gemini は強化学習や計画アルゴリズムを取り入れて「エージェント的」能力を高めるかもしれません[109][111]。コンピュータを操作し、対話的なタスク(ターミナルや自動販売機ベンチマークなど)を解決できるという事実は、エージェント的シミュレーションを含むアーキテクチャまたはトレーニングルーチンがあったことを示唆しています。また、Gemini の文書では*「思考の署名」*やマルチターンのツール使用に対する厳格な検証が言及されていました[112][113] – これは、モデルのツール呼び出しの動作を信頼性のあるものにするためのアーキテクチャ的な特徴である可能性があり(各思考/アクションを検証するためのモジュールが別にあるかもしれません)、最後に、Gemini の1M コンテキストは、おそらく建築的な革新を必要とし、リトリーバルメカニズムやチャンク化されたアテンションを組み合わせて、100 万トークンを一度に二次的に注目しないようにしている可能性があります。
本質的に、Claude、GPT-5.1、Geminiはすべて、多数の機能を備えた大規模なTransformerベースのAIシステムです。 正確なアーキテクチャは企業秘密ですが、それぞれがわずかに異なる優先事項に最適化されています。Claudeは非常に長いコンテキストとコーディング/エージェントの信頼性に、GPT-5.1は適応的な推論を備えたバランスの良いチャット体験に、Geminiは広範なマルチモーダル理解と複雑なツールを介したタスクに最適化されています。
私たちはAIの最前線でのエキサイティングな収束を目にしています。「Claude Opus 4.5」、「ChatGPT 5.1」、そして「Gemini 3 Pro」はすべて、AIの可能性を広げる「最前線モデル」を表しつつ、それぞれに独自の特徴を持っています。Claude 4.5はコーディングとエージェントのスペシャリストとして登場し、一晩でコードベース全体をリファクタリングしたり、1時間スプレッドシートを操作したりする際に頼れるモデルです。「深い作業」に最適化され、現在は価格が下がり、よりアクセスしやすくなっています。ChatGPT 5.1は、会話と指示に優れ、汎用的な問題解決とコーディング(特にCodex-Maxバリアント)においても高い能力を維持しており、OpenAIの広範な能力の伝統を続けています。ユーザーの意図をよりよく理解し、カスタマイズを提供することで、非常にユーザーフレンドリーなAIパートナーとなっています。Gemini 3 Proは、未来を垣間見るような存在です。真にマルチモーダルで、「AGIプロトタイプ」と呼べるような推論能力を示し(Deep ThinkモードでAIでは解決不可能とされていた問題に取り組む)、Googleエコシステムへの統合と1Mコンテキストを備え、テキスト、画像、アクションをシームレスに組み合わせたアプリケーションの核となり得ます。
ここからの主なポイントは次のとおりです:
生のパフォーマンスは現在、タスクに依存しています。「すべてにおいて最良」なモデルは存在せず、むしろ飛び越え現象が見られます。Claude 4.5はコーディングベンチマークでリードしています[11]が、Gemini 3は論理的推論とマルチモーダルタスクでリードしています[5][17]、GPT‑5.1は知識テストでほぼ同等で、最も洗練された会話体験を提供します。多くの分野での差は比較的狭く(しばしば数パーセント程度)、これらのモデルが以前のベンチマークや人間の基準をどれだけ超えたかを考えると、驚くべきことです。
コンテキストと持続性は、生の正確さと同様に重要です。長い会話を続けたり、長文を扱ったりする際にコンテキストを失わない能力は、使いやすさの大きな勝利です。ここで、Googleは新たな基準を設定しました(100万トークン、マルチドキュメント入力)[64]、しかしAnthropicやOpenAIもそれぞれの解決策を持っています(それぞれ200kトークンと圧縮)[61][29]。これは、ユーザーが「申し訳ありませんが、コンテキストの制限です」という中断がはるかに少なくなり、これらのモデルを真に大規模なデータの要約や分析タスクに使用できることを意味します。
適応性と微調整の比較: これらの巨大モデルをまだ微調整できないとしても、さまざまな制御レバー(労力レベル、性格プリセット、システムツール)によって、開発者やユーザーは再トレーニングをしなくても出力に大きな影響を与えることができます[24][100]。この傾向は続くかもしれません。将来のモデルはさらに多くのモジュラーコントロールを持つ可能性があります(たとえば、「厳密に事実の」モードや「創造的」モードを別々のモデルを必要とせずに切り替えることができる)。 - コストは正しい方向に向かっています - 低下しています。AnthropicがOpusの価格を3分の2に削減する必要性を感じたこと、OpenAIとGoogleがトークン価格で競争していることは、競争がユーザーに利益をもたらしていることを示しています[85][89]。大規模なタスク(数百万のトークン)を実行するにはまだ高価ですが、はるかに合理的になってきています。小さなスタートアップが天文学的な費用をかけずにフロンティアモデルを大規模なデータセットで使用することが現実的になり、さらなる革新を促進する可能性があります。
最終的に「ベスト」なモデルは、あなたのニーズに依存します。マルチモーダルな理解や厳しい論理/数学の問題での最高の推論が必要であれば、GoogleのGemini 3 Proが現在優位です。AIペアプログラマーやソフトウェアタスクを自動化するエージェントが必要なら、AnthropicのClaude Opus 4.5が最良の結果を出すかもしれません(コードの出力スタイルがより予測可能であるとも言えます)。幅広いタスクに対して汎用性があり、信頼性が高くコスト効果の高いジェネラリストAIを求めるなら、ChatGPT 5.1はOpenAIのエコシステムのサポートを受けて素晴らしい選択肢です。
明らかなのは、3つのモデルすべてが互いに、そして分野全体を前進させていることです。ある分析が指摘するように、新しいLLMを評価することはますます難しくなっています。というのも、各世代が前の世代よりもわずかに先を行くにすぎないからです[115][116]。しかし、その小さな進歩が積み重なり、深遠なものになっています。AIモデルは、コーディングにおいてプロフェッショナルレベルの能力に近づき、一部の試験では人間の専門家を超え、複数のモダリティを流暢に扱い、長時間のインタラクションを持続することができるのです。無限とも思える文脈と能力を持つ大規模な汎用AIの時代が本当に始まっています。Claude 4.5、GPT-5.1、Gemini 3 Proがその先頭に立っています。
出典: Anthropic[118][11]、OpenAI[2][28]、Google DeepMind[17][64]の公式発表と文書に基づいており、また、信頼できる第三者によるベンチマーク結果や洞察も報告されています[11][13]。各モデルの主張とスコアは、正確性を確保するためにこれらの情報源から引用されています。
[1] [14] [15] [16] [20] [40] [51] [52] [59] [60] [62] [63] [87] [88] [92] [118] クロード・オーパス 4.5 の紹介 \ アンスロピック
https://www.anthropic.com/news/claude-opus-4-5
[2] [19] [76] [77] [78] [104] GPT-5.1: よりスマートで会話的なChatGPT | OpenAI
https://openai.com/index/gpt-5-1/
[3] [4] [5] [6] [7] [8] [9] [10] [13] [17] [18] [21] [22] [32] [33] [34] [35] [44] [94] [95] [109] [110] [111] [114] ジェミニ 3: Googleから最新のジェミニAIモデルの紹介
https://blog.google/products/gemini/gemini-3/
[11] [53] [54] [55] [57] [58] [85] [86] [106] AnthropicのClaude Opus 4.5が登場: より安価なAI、無限チャット、人間を超えるコーディングスキル | VentureBeat
https://venturebeat.com/ai/anthropics-claude-opus-4-5-is-here-cheaper-ai-infinite-chats-and-coding
[12] [26] [27] [28] [29] [36] [37] [38] [39] [56] [70] [71] [105] GPT-5.1-Codex-Maxでさらに構築する | OpenAI
https://openai.com/index/gpt-5-1-codex-max/
[23] [24] [25] [45] [46] [47] [48] [49] [50] Claude 4.5の新機能 - Claude Docs
https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-5
[30] [31] [41] [61] [89] [90] [115] [116] Claude Opus 4.5、新しいLLMを評価することがますます難しくなっている理由
https://simonwillison.net/2025/Nov/24/claude-opus/
[42] [43] Gemini 3 Pro - 評価アプローチ、方法論 & アプローチ v2
http://deepmind.google/models/evals-methodology/gemini-3-pro
[64] [65] [66] [67] [75] [80] [81] [93] [96] [101] [102] [103] [112] [113] Gemini 3 Pro | Vertex AI の生成 AI | Google Cloud ドキュメント
https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/3-pro
[68] GPT-5の解説: 機能、パフォーマンス、価格設定、使用事例
https://www.leanware.co/insights/gpt-5-features-guide
[69] 最大コンテキストウィンドウを持つLLM - Codingscape
https://codingscape.com/blog/llms-with-largest-context-windows
[72] 価格設定 - Claude Docs
https://platform.claude.com/docs/en/about-claude/pricing
[73] Claude Opus 4.5対Sonnet 4.5: 価格革命とパフォーマンス
[74] ChatGPTにおけるGPT-5のコンテキストウィンドウの制限 - 無料ユーザーは8Kまで、
https://x.com/rohanpaul_ai/status/1953549303638557183
[79] Claude Sonnet 4.5とGPT-5の比較: パフォーマンス、効率性、価格 ...
https://portkey.ai/blog/claude-sonnet-4-5-vs-gpt-5
[82] GPT-5.1 CodexとSonnet 4.5をテストしました。その結果は ... - Reddit
https://www.reddit.com/r/ClaudeAI/comments/1oy36ag/i_tested_gpt51_codex_against_sonnet_45_and_its/
[83] GPT-5.1 Codex vs. Claude 4.5 Sonnet vs. Kimi K2 Thinking
[84] AIにおけるムーアの法則の終焉?ジェミニフラッシュが警鐘を鳴らす
https://news.ycombinator.com/item?id=44457371
[91] Claude Opus 4.5 は Opus 4.1 よりもずっと安い - Reddit
https://www.reddit.com/r/singularity/comments/1p5pdjq/claude_opus_45_is_much_cheaper_than_opus_41/
[97] models/gpt-5 - モデル - OpenAI API
https://platform.openai.com/docs/models/gpt-5
[98] Microsoft Foundry ModelsのAzure OpenAIの新機能は何ですか?
https://learn.microsoft.com/en-us/azure/ai-foundry/openai/whats-new?view=foundry-classic
[99] [100] GPT-5.1の8つの新しい個性でOpenAIは綱渡り
[107] GPT-5の紹介 - OpenAI
https://openai.com/index/introducing-gpt-5/
[108] GPT-5: 新機能、テスト、ベンチマーク、その他 - DataCamp
https://www.datacamp.com/blog/gpt-5
[117] GPT-5が地球上で最も難しい医学試験に合格しました、そして... - Reddit