私はここ数週間、自分のワークフローを意図的に壊して、GLM-4.7とGPT-5が実際にどのように振る舞うかを、実際のプロジェクトや乱雑なリポジトリ、未完成の仕様書などを投入して確認してきました。
理論上では、どちらも「次世代」「「エージェンティック」」「コーディングに強い」などのバズワードが並びます。実際に、バグ修正、複数ファイルのリファクタリング、ツールを使用するエージェントのサイドバイサイドテストを行ったところ、GLM-4.7とGPT-5の違いは、マーケティングで言われているほど理論的なものではありませんでした。
本題に入る前に簡単な注意事項:GPT-5の詳細はまだ進化中であり、ベンダーのベンチマークは、予想通り、好意的なものであることに注意してください。ここで共有しているのは、2025年12月に私自身が行ったテストに基づくもので、小規模ながら再現可能な実験であり、両モデルに同じプロンプト、リポジトリ、ツールを使用しています。これはフィールドノートとして扱い、絶対的なものとして受け取らないでください。
それでは、特にコーディング、エージェント、およびコスト重視のワークフローでGLM-4.7とGPT-5が実際にどのように異なるかを見ていきましょう。
私が GLM-4.7 vs GPT-5 の詳細な調査を行った理由は単純です。両ベンダーが強調しているのは、より優れたエージェント、より優れたコーディング、より優れた推論です。
私のテストでは、これが次の3つの具体的な質問に繋がりました。
私は両者を次のアクセス権を持つ小さな エージェントフレームワーク に組み込みました。
私は次を使用しました。
「スマート」なエージェントが1つのバグ修正に50ドルを静かに浪費するのはスマートではありません。
GLM-4.7とGPT-5の両方がこれらのシナリオに最適化されていますが、トレードオフは異なります。
これは理論的なGLM-4.7対GPT-5の対決ではありません。この選択はあらゆることに影響を与えます。
私はすでにあるクライアントの内部「AI開発アシスタント」をGPTのみのスタックからハイブリッドに切り替えました。製品仕様の作業とユーザー向けコピーにはGPT-5を、コストとスループットが重要な背景のコーディングタスクにはGLM-4.7を使用しています。その分割は1年前には考えられなかったことですが、今は理にかなっています。
私は完全な学術ベンチマークを再現したとは言いませんが、それぞれの簡易版を実行しました。
小規模で確認されたバグ修正セット(30のPythonの問題、各テスト付き):
フィードバックを使用した再試行を許可した場合(「テストがまだ失敗しています、ログはこちら」)、差は縮まりました:
生のパーセンテージよりも重要だったのは、どのように失敗したかです。
私は次の方法で擬似的なマルチリンガルSWE-benchを作成しました:
ここでGLM-4.7とGPT-5は逆転しました:
GLM-4.7は中国語のバグ記述をよりよく処理し、ドックストリング内の混合言語コメントに混乱しませんでした。GPT-5は通常、レポートを完全に英語で言い換えると問題を解決しましたが、それは大規模には追加の摩擦です。
ターミナルスタイルのタスク(依存関係のインストール、テストの実行、ログの確認、軽微なファイル編集)については、両方のモデルを同じサンドボックスに接続しました。
40のタスクにおけるバッチ成功率を測定しました:
主な違い:
致命的ではありませんが、エージェントが呼び出しごとに料金を支払う場合、それを感じるでしょう。
外部ツールを用いた高レベル評価(HLE)では、小さな「アナリスト」ワークフローをテストしました:
ここでGPT-5が頭角を現し始めました:
全体として、この小さなツール付きHLEテストでは:
主な使用ケースがコーディング+ツールであれば、どちらも堅実です。ツールを用いた戦略分析の使用ケースでは、私の経験ではGPT-5がまだ上位にあると感じます。
インディービルダーにとって、GLM-4.7 vs GPT-5の価格は、月の成否を左右することがあります。
GPT-5の正確な価格はまだ公表されていませんが、GPT-4.1/o3のパターンに従うならば、次のようになるでしょう:
対照的に、GLM-4.7は特に中国地域でコスト面で攻撃的に位置付けられており、フロンティアのOpenAIモデルよりもトークンあたり30〜60%安価になることが多く、地域やプロバイダーによります。
典型的なコーディングセッション(200Kの入力コンテキスト、20〜40Kの出力トークンを含む)では、以下のようなランがありました:
もしGPT-5がその上限またはそれ以上に留まるのであれば、GLM-4.7は「タスク解決ごとの価値」の面で強みを保ち続けます。
私はトークンごとだけでなく、成功したタスクごとのコストも追跡しました。
私の30タスクのSWEスタイルベンチマークでは:
GPTスタイルのモデルがより多くのタスクを解決しても、GLMは依然として作業PRごとのコストで勝ちました。
あなたが実行している場合:
これらの修正ごとのコスト差は非常に速く累積します。
ワイルドカードは自己ホスティングです。GLM-4.7は、独自のGPUまたはプライベートクラウドにデプロイできます。
それが可能にするユースケースは次のとおりです:
もちろん、無料ではありません。それは次のものと交換しています:
…でも、使用量があるラインを超えると(私の場合は1日あたり1500万~2000万トークン程度)、GLM-4.7の自己ホスティングが純粋なGPT-5 API戦略に対して非常に魅力的に見え始めます。
GLM-4.7では、一貫して約200Kトークンのコンテキストがありました。これは以下のために十分です:
GPT-5の正確なコンテキスト制限は、ティア/バージョンによって異なり、ベンダーはそれを微調整し続けています。実際には、128K–200Kクラスのモデルのように扱っており、日常のコーディングタスクではほとんど厳しいコンテキスト制限に達することはありませんでした。
意味のある違いは生の数字ではなく、それをどう使うかでした:
GLM-4.7は、フルパッチやテストスイートが必要なときに、落ち着いて非常に長い出力を生成しました。数万トークンを問題なく生成しました。
GPT-5も大きな出力に対応しましたが、特にチャットのようなUIでは「残りが必要なら言ってください」と早めに止まることが多いと感じました。
大規模な差分の場合:
両方のモデルは、何らかの「より深い思考」や推論モードを市場に出しています。
私のテストでは:
製品の決定や多段階の計画において最大の推論を求めるなら、GPT-5のトップティアは依然として先を行っています。妥当なコストで十分な推論を求めるなら、GLM-4.7も健闘しています。
ここで、コーディングの比較におけるGLM-4.7とGPT-5の違いが具体的になります。
両モデルに同じシナリオを与えました:
結果:
2〜3回のやり取り後の「グリーンテスト」までの時間:
正直に言うと、それは互角です。どちらもリファクタリングのコパイロットとして使えます。GPT-5はデザインセンスの良いシニア開発者のように感じられ、GLM-4.7は型を二重チェックする速くて慎重な中堅のようです。
小規模なSWEスタイルのバグタスクでは、各モデルがループされた試行でどのように振舞うかを観察しました:
観察したパターン:
バグを修正する前にテストを生成するように依頼しました(驚くほど効果的な手法です):
あなたの主な使用ケースが GLM-4.7 と GPT-5 のコーディングエージェントである場合、次のように要約できます:
インディーデベロッパー、小規模エージェンシー、またはサイドプロジェクトを運営している場合、GLM-4.7 と GPT-5 の選択は、通常、1つの厳しい指標に帰着します: 解決されたタスクあたりのドルコスト。
私のログから:
この取引は以下に価値があります:
チームやクライアントが:
その場合、GLM-4.7のセルフホスティングストーリーが決定的な要素となります。
運用がより困難ですか? はい。GPU、推論サーバー、監視、スケーリングを扱うことになります。しかし、トークンボリュームが十分に大きく、セキュリティやプライバシーが不可欠であれば、それは非常に合理的な選択です。
もしあなたのコードベースが次のような場合:
GLM-4.7は現在、真の優位性を持っています。
私の中国語と英語が混在したリポジトリテストでは:
そのため、中国語を優先する環境やバイリンガル環境で活動しているなら、GLM-4.7は日常の開発生活により自然に溶け込みます。
GLM-4.7とGPT-5の間での主な技術的でない議論はエコシステムです。
GPT-5は現在、以下の点で勝っています:
多くのSaaSツール、プラグイン、ノーコードプラットフォームに接続する必要があるものを構築している場合、GPT-5は最も抵抗が少ない道です。
英語を優先する場合:
GPT-5は単により洗練された感じがします。
私のテストでは、その:
は編集なしで一貫して「クライアント向け」でした。GLM-4.7もこれを十分にこなせますが、トーンや構造をもっと編集することが多かったです。
優先事項が次のようであれば:
現在のところ、GPT-5がより安全な選択です。
長期間稼働するエージェントでは、1回の奇妙な幻覚がインフラストラクチャの誤設定のような実害を引き起こす場合、GPT-5のガードレールとモニタリングスタックがより成熟していると感じました。GLM-4.7は私のテストではよく動作しましたが、それを取り巻くエコシステム(評価、ガードレール、既製ツール)はまだ十分に実戦経験がありません。
視野を広げると、GLM-4.7とGPT-5の最も興味深い部分は、どちらが「勝つ」かではありません。多くの日常業務において、両方とも十分に優れています。
現在実際に重要なのは次のことです:
これらすべてのテスト後の私の実用的な結論:
正直に言うと、混ぜることを恐れないでください。
私自身のスタックでは、今:
もし始めたばかりなら、以下をお勧めします:
その小さな実験は、GLM-4.7対GPT-5があなたの人生にどれだけ影響するかをマーケティングページやブログ記事よりも多く教えてくれます。
そして、実際にあなたのために仕事をするものを選びましょう。派手なベンチマークチャートではなく。
あなたにとって最適なモデルは、リーダーボードではなく、ワークフローに依存します。
これらのテストの後、不快な真実はこれです:ほとんどの個人およびインディーワークフローでは、モデル自体よりもその周りに組み込まれたエージェント設計の方が重要です。
それこそが私たちがMacaronで構築しているものです。私たちは単一の「最良」モデルに賭けません。私たちは、あなたがどのように働くか、何を気にするか、どのように反復するか、そして通常どこで問題が発生するかを実際に学ぶメモリシステムとともに、利用可能な最強のモデルを組み合わせます。
実際にそれがどのように感じるか興味があるなら、自分で試してみてください。 [無料でMacaronを試す→]