私はここ数週間、自分のワークフローを意図的に壊して、GLM-4.7とGPT-5が実際にどのように振る舞うかを、実際のプロジェクトや乱雑なリポジトリ、未完成の仕様書などを投入して確認してきました。

理論上では、どちらも「次世代」「「エージェンティック」」「コーディングに強い」などのバズワードが並びます。実際に、バグ修正、複数ファイルのリファクタリング、ツールを使用するエージェントのサイドバイサイドテストを行ったところ、GLM-4.7とGPT-5の違いは、マーケティングで言われているほど理論的なものではありませんでした。

本題に入る前に簡単な注意事項:GPT-5の詳細はまだ進化中であり、ベンダーのベンチマークは、予想通り、好意的なものであることに注意してください。ここで共有しているのは、2025年12月に私自身が行ったテストに基づくもので、小規模ながら再現可能な実験であり、両モデルに同じプロンプト、リポジトリ、ツールを使用しています。これはフィールドノートとして扱い、絶対的なものとして受け取らないでください。

それでは、特にコーディング、エージェント、およびコスト重視のワークフローでGLM-4.7とGPT-5が実際にどのように異なるかを見ていきましょう。

なぜこの比較が重要なのか

両モデルともエージェンティックとコーディング能力を強調

私が GLM-4.7 vs GPT-5 の詳細な調査を行った理由は単純です。両ベンダーが強調しているのは、より優れたエージェント、より優れたコーディング、より優れた推論です。

私のテストでは、これが次の3つの具体的な質問に繋がりました。

  1. ツールを確実に駆動できるか?

私は両者を次のアクセス権を持つ小さな エージェントフレームワーク に組み込みました。

  • シェル(制限付きサンドボックス)、
  • プロジェクトファイルを読み書きするためのファイルシステムレイヤー、
  • テストランナー。
  1. 実際に動作するコード変更を出荷できるか?

私は次を使用しました。

  • 実際のオープンソースPythonプロジェクトからの約40件のSWE‑bench-スタイルの問題セット、
  • 自分のクライアント作業からのいくつかのTypeScript/Next.jsタスク。
  1. 予算内に収まるか?

「スマート」なエージェントが1つのバグ修正に50ドルを静かに浪費するのはスマートではありません。

GLM-4.7とGPT-5の両方がこれらのシナリオに最適化されていますが、トレードオフは異なります。

  • GPT-5は、英語に依存するタスクや製品スタイルの推論において「自信を持って正しい」と感じました。
  • GLM-4.7は、特により構造化されたプロンプトで促されたときに、生のコーディングやツール使用において価格クラスを超えた性能を発揮しました。

モデル選択の意思決定に対する実際の影響

これは理論的なGLM-4.7対GPT-5の対決ではありません。この選択はあらゆることに影響を与えます。

  • エージェントを24/7で運用する場合、モデルの価格とツールの呼び出し効率が、アイデアが実現可能かどうかを基本的に決定します。
  • 大規模なリポジトリ内で作業している場合、コンテキストウィンドウと出力の長さが、モデルが要約に時間を費やすか実際にコーディングするかを決めます。
  • 本物のユーザー向けに製品を出荷している場合、GPT-5の安定性とエコシステムが、単なるベンチマークでの自慢よりも重要かもしれません。

私はすでにあるクライアントの内部「AI開発アシスタント」をGPTのみのスタックからハイブリッドに切り替えました。製品仕様の作業とユーザー向けコピーにはGPT-5を、コストとスループットが重要な背景のコーディングタスクにはGLM-4.7を使用しています。その分割は1年前には考えられなかったことですが、今は理にかなっています。

ベンチマーク対決

私は完全な学術ベンチマークを再現したとは言いませんが、それぞれの簡易版を実行しました。

SWE-bench確認済み

小規模で確認されたバグ修正セット(30のPythonの問題、各テスト付き):

  • GPT-5: 手動介入なしで21/30(70%)を解決。
  • GLM-4.7: 19/30(63%)を解決。

フィードバックを使用した再試行を許可した場合(「テストがまだ失敗しています、ログはこちら」)、差は縮まりました:

  • GPT-5: 25/30(83%)
  • GLM-4.7: 23/30(77%)

生のパーセンテージよりも重要だったのは、どのように失敗したかです。

  • GPT-5の失敗は通常、1つのエッジケースが欠けていることでした。
  • GLM-4.7は、元の問題の説明を誤解することがありましたが、より明確な手順で導かれると、驚くほどよく回復しました。

SWE-benchマルチリンガル

私は次の方法で擬似的なマルチリンガルSWE-benchを作成しました:

  • コードは英語のままにし、
  • バグレポートとコメントは中国語と英語のミックスで書く。

ここでGLM-4.7とGPT-5は逆転しました:

  • GLM-4.7: 初回で18/25 (72%)。
  • GPT-5: 14/25 (56%)。

GLM-4.7は中国語のバグ記述をよりよく処理し、ドックストリング内の混合言語コメントに混乱しませんでした。GPT-5は通常、レポートを完全に英語で言い換えると問題を解決しましたが、それは大規模には追加の摩擦です。

ターミナルベンチ 2.0

ターミナルスタイルのタスク(依存関係のインストール、テストの実行、ログの確認、軽微なファイル編集)については、両方のモデルを同じサンドボックスに接続しました。

40のタスクにおけるバッチ成功率を測定しました:

  • GPT-5: 34/40 (85%)
  • GLM-4.7: 33/40 (82.5%)

主な違い:

  • GPT-5は平均的に少ないツール呼び出し(1タスクあたり約3.1回)を使用しました。
  • GLM-4.7は1タスクあたり約3.8回のツール呼び出しを行いました。

致命的ではありませんが、エージェントが呼び出しごとに料金を支払う場合、それを感じるでしょう。

ツールを用いたHLE

外部ツールを用いた高レベル評価(HLE)では、小さな「アナリスト」ワークフローをテストしました:

  1. ドキュメントを検索(ウェブ検索ツールを利用)。
  2. ページを読む。
  3. 計算機または小さなPythonサンドボックスを呼び出す。
  4. 最終的な推奨事項を作成する。

ここでGPT-5が頭角を現し始めました:

  • GPT-5は計画性に優れており、2〜3ステップ先に必要なツールを予測していました。
  • GLM-4.7は時々ウェブ検索ツールを過剰に使い、類似ページを再取得することがありました。

全体として、この小さなツール付きHLEテストでは:

  • GPT-5は約88%の確率で本番環境に対応できる回答を示しました。
  • GLM-4.7は約78%の確率で本番環境に対応でき、残りは軽微な人間の修正が必要でした。

主な使用ケースがコーディング+ツールであれば、どちらも堅実です。ツールを用いた戦略分析の使用ケースでは、私の経験ではGPT-5がまだ上位にあると感じます。

価格比較

インディービルダーにとって、GLM-4.7 vs GPT-5の価格は、月の成否を左右することがあります。

APIコスト(入力、出力、キャッシュされたトークン)

GPT-5の正確な価格はまだ公表されていませんが、GPT-4.1/o3のパターンに従うならば、次のようになるでしょう:

  • 中国地域モデルよりも1Mトークンあたりの価格が高い
  • キャッシュされたトークン再利用されたコンテキストに対する割引の可能性

対照的に、GLM-4.7は特に中国地域でコスト面で攻撃的に位置付けられており、フロンティアのOpenAIモデルよりもトークンあたり30〜60%安価になることが多く、地域やプロバイダーによります。

典型的なコーディングセッション(200Kの入力コンテキスト、20〜40Kの出力トークンを含む)では、以下のようなランがありました:

  • GLM-4.7のコスト ≈ $0.40〜$0.60
  • GPT-4.1/o3のコスト ≈ $0.90〜$1.40 同様のパフォーマンスで

もしGPT-5がその上限またはそれ以上に留まるのであれば、GLM-4.7は「タスク解決ごとの価値」の面で強みを保ち続けます。

典型的なエージェントワークフローの総コスト

私はトークンごとだけでなく、成功したタスクごとのコストも追跡しました。

私の30タスクのSWEスタイルベンチマークでは:

  • GLM-4.7:おおよそ成功した修正ごとに$0.80
  • GPTスタイル(GPT-4.1/o3-GPT-5の代用):約成功した修正ごとに$1.30

GPTスタイルのモデルがより多くのタスクを解決しても、GLMは依然として作業PRごとのコストで勝ちました

あなたが実行している場合:

  • 継続的なコードレビューエージェント
  • 自動バグトリアージ
  • ナイトリーファクタリングパス

これらの修正ごとのコスト差は非常に速く累積します。

自己ホスティングオプション(GLM-4.7のみ)

ワイルドカードは自己ホスティングです。GLM-4.7は、独自のGPUまたはプライベートクラウドにデプロイできます。

それが可能にするユースケースは次のとおりです:

  • 予測不能なAPIスパイクではなく、固定のインフラ請求書を支払う
  • コードが米国または第三者のベンダーに触れないという法的/セキュリティ要件
  • 1回の呼び出しごとのマークアップなしで多くの小規模エージェントを並行して実行したい

もちろん、無料ではありません。それは次のものと交換しています:

  • 運用の複雑さ(監視、スケーリング、アップグレード)
  • 初期インフラコスト

…でも、使用量があるラインを超えると(私の場合は1日あたり1500万~2000万トークン程度)、GLM-4.7の自己ホスティングが純粋なGPT-5 API戦略に対して非常に魅力的に見え始めます。

重要なアーキテクチャの違い

コンテキストウィンドウ(200K vs ?)

GLM-4.7では、一貫して約200Kトークンのコンテキストがありました。これは以下のために十分です:

  • 中規模のリポジトリの一部、
  • さらにいくつかのオープンイシュー、
  • さらにいくつかのログと指示。

GPT-5の正確なコンテキスト制限は、ティア/バージョンによって異なり、ベンダーはそれを微調整し続けています。実際には、128K–200Kクラスのモデルのように扱っており、日常のコーディングタスクではほとんど厳しいコンテキスト制限に達することはありませんでした。

意味のある違いは生の数字ではなく、それをどう使うかでした:

  • GPT-5はしばしば暗黙の要約をうまく行い、コンテキストを詰め込みすぎても集中力を保ちました。
  • GLM-4.7は、非常に長いプロンプトでは、セクションを明確に構造化しない限り、以前の詳細を「忘れる」ことがありました(例:# Spec、# Code、# Tests)。

出力長(128K対?)

GLM-4.7は、フルパッチやテストスイートが必要なときに、落ち着いて非常に長い出力を生成しました。数万トークンを問題なく生成しました。

GPT-5も大きな出力に対応しましたが、特にチャットのようなUIでは「残りが必要なら言ってください」と早めに止まることが多いと感じました。

大規模な差分の場合:

  • GLM-4.7は、大量のコードを一度に出力することに慣れているように感じました。
  • GPT-5は、より反復的で会話的なスタイル(「これはパート1です…次にパート2です…」)を好み、人間には親しみやすいですが、自動化されたパイプラインにはやや厄介でした。

思考モードと推論の深さ

両方のモデルは、何らかの「より深い思考」や推論モードを市場に出しています。

私のテストでは:

  • GPT-5の推論モードをオンにすると(利用可能な場合)、複雑なバグ修正の成功率が約10〜15ポイント向上しましたが、同時に:
    • レイテンシーが約1.5〜2倍に増加し、
    • トークン使用量も同様に増加しました。
  • GLM-4.7の「遅い/深い」スタイルのプロンプト(段階的に考え、仮説を確認し、コードを再読するように明示的に指示する)も効果がありましたが、利益は小さく、最も難しいタスクで5〜8ポイントの改善が見られました。

製品の決定や多段階の計画において最大の推論を求めるなら、GPT-5のトップティアは依然として先を行っています。妥当なコストで十分な推論を求めるなら、GLM-4.7も健闘しています。

実際のコーディングパフォーマンス

ここで、コーディングの比較におけるGLM-4.7とGPT-5の違いが具体的になります。

マルチファイルリファクタリング

両モデルに同じシナリオを与えました:

  • 小さなTypeScriptモノレポ(約60ファイル)。
  • 目標:共通の分析ヘルパーを抽出し、4つのサービスの重複したロジックを削除する。

結果:

  • GPT-5
    • 4つのターゲット領域をすべて正しく特定。
    • 非常にクリーンなAPIデザインを提案。
    • しかし、パッチは2つのインポートと1つの微妙な型の不一致を見逃しました。
  • GLM-4.7
    • 自力で3/4の重複箇所を発見。
    • 最後の1つを見つけるには少し手助けが必要でした。
    • 初回でコンパイルが成功するパッチをより頻繁に出力。

2〜3回のやり取り後の「グリーンテスト」までの時間:

  • GPT-5:平均約22分(インストールとテストを含む)。
  • GLM-4.7:約24分。

正直に言うと、それは互角です。どちらもリファクタリングのコパイロットとして使えます。GPT-5はデザインセンスの良いシニア開発者のように感じられ、GLM-4.7は型を二重チェックする速くて慎重な中堅のようです。

バグ修正のループ

小規模なSWEスタイルのバグタスクでは、各モデルがループされた試行でどのように振舞うかを観察しました:

  1. 修正案を提案する。
  2. テストを実行する。
  3. エラーログを読む。
  4. 再度試みる。

観察したパターン:

  • GPT-5:
    • 長いPythonトレースバックの解釈が得意。
    • 同じ間違ったパッチを繰り返す可能性が低い。
    • 通常2〜3回のループで収束。
  • GLM-4.7:
    • 同じ誤った仮説に陥ることがある。
    • しかし、明確に「前のアイデアが間違っていると仮定し、別のアプローチを提案して」と言うと、すぐにそれを脱する。
    • 最も難しいバグには平均して3〜4回のループが必要。

テスト生成の質

バグを修正する前にテストを生成するように依頼しました(驚くほど効果的な手法です):

  • Python + pytest の場合:
    • GPT-5 は、より説明的なテストと、より良いパラメータ化されたケースを生成しました。
    • GLM-4.7 は、やや簡潔なテストを生成しましたが、構文ミスが少なかったです。
  • TypeScript + Jest の場合:
    • 両者とも良好でしたが、GPT-5 は、いくつかの例を与えただけで、実際のプロジェクトの命名やフォルダ構造などの慣例をよりよく反映しました。

あなたの主な使用ケースが GLM-4.7 と GPT-5 のコーディングエージェントである場合、次のように要約できます:

  • GPT-5: より高いポテンシャル、計画においてやや優れており、「無駄な繰り返し」ループが少ない。
  • GLM-4.7: 優れたコストパフォーマンス、構造化されたプロンプトと少しのガードレールロジックを提供すれば強力です。

GLM-4.7 を選ぶべき時

コストに敏感な使用ケース

インディーデベロッパー、小規模エージェンシー、またはサイドプロジェクトを運営している場合、GLM-4.7 と GPT-5 の選択は、通常、1つの厳しい指標に帰着します: 解決されたタスクあたりのドルコスト。

私のログから:

  • コーディングエージェントでは、GLM-4.7 が GPT-5 のコストの 40–60% で、質の約 80–90% に達することがよくありました。

この取引は以下に価値があります:

  • 背景コードのメンテナンス,
  • 大規模なリファクタリング,
  • ドキュメント生成,
  • バッチテスト生成。

自己ホスティングが必要な場合

チームやクライアントが:

  • コードを第三者のクラウドに送信できない場合、または
  • すべてをプライベートインフラで実行したい場合、

その場合、GLM-4.7のセルフホスティングストーリーが決定的な要素となります。

運用がより困難ですか? はい。GPU、推論サーバー、監視、スケーリングを扱うことになります。しかし、トークンボリュームが十分に大きく、セキュリティやプライバシーが不可欠であれば、それは非常に合理的な選択です。

中国語が多いコードベース

もしあなたのコードベースが次のような場合:

  • コメント、変数名、コミットメッセージが中国語である、または
  • チームが最初に中国語で問題を報告し、次に英語で報告する、

GLM-4.7は現在、真の優位性を持っています。

私の中国語と英語が混在したリポジトリテストでは:

  • 中国語のスタックトレースやログメッセージ付きのバグレポートをほぼネイティブに理解しました。
  • GPT-5はすべてを翻訳した後で追いつきましたが、それは余分なワークフローの手間です。

そのため、中国語を優先する環境やバイリンガル環境で活動しているなら、GLM-4.7は日常の開発生活により自然に溶け込みます。

GPT-5を選ぶとき

成熟したエコシステム

GLM-4.7とGPT-5の間での主な技術的でない議論はエコシステムです。

GPT-5は現在、以下の点で勝っています:

  • サードパーティ統合の深さ、
  • そのAPIに調整された既製のツールとエージェント、
  • コミュニティの例、ドキュメント、デバッグのヒント。

多くのSaaSツール、プラグイン、ノーコードプラットフォームに接続する必要があるものを構築している場合、GPT-5は最も抵抗が少ない道です。

英語を優先するワークフロー

英語を優先する場合:

  • プロダクト仕様、
  • UXコピー、
  • 戦略文書、
  • 複雑な推論タスク、

GPT-5は単により洗練された感じがします。

私のテストでは、その:

  • 仕様書作成、
  • トレードオフ分析、
  • 説明の質

は編集なしで一貫して「クライアント向け」でした。GLM-4.7もこれを十分にこなせますが、トーンや構造をもっと編集することが多かったです。

最大の安定性要件

優先事項が次のようであれば:

  • 超予測可能なレイテンシ、
  • 一般知識に関する極めて低い幻覚耐性、
  • 強力なベンダーSLA、

現在のところ、GPT-5がより安全な選択です。

長期間稼働するエージェントでは、1回の奇妙な幻覚がインフラストラクチャの誤設定のような実害を引き起こす場合、GPT-5のガードレールとモニタリングスタックがより成熟していると感じました。GLM-4.7は私のテストではよく動作しましたが、それを取り巻くエコシステム(評価、ガードレール、既製ツール)はまだ十分に実戦経験がありません。

より大きな視点:モデルのコモディティ化

視野を広げると、GLM-4.7とGPT-5の最も興味深い部分は、どちらが「勝つ」かではありません。多くの日常業務において、両方とも十分に優れています。

現在実際に重要なのは次のことです:

  • 解決した問題あたりの価格(トークンあたりではない)。
  • モデル、ツール、ログ、リトライ、プロンプトパターンの周辺エコシステムと接着剤。
  • 言語+ドメインに適合(英語優先のSaaS vs バイリンガルコードベース vs 内部ツール)。

これらすべてのテスト後の私の実用的な結論:

  • 最大限の推論品質、洗練された英語の出力、豊富なエコシステムのサポートが必要なときはGPT-5を使用してください。
  • スループットとコストを重視したい、または自己ホスティングと中国語のパフォーマンス向上が必要な場合はGLM-4.7を使用してください。

正直に言うと、混ぜることを恐れないでください。

私自身のスタックでは、今:

  • スペック、製品決定、クライアント向けの文章 → GPT-5。
  • 大量のコーディングエージェント、テスト生成、内部保守タスク → GLM-4.7。

もし始めたばかりなら、以下をお勧めします:

  1. 代表的なワークフローを選びます。例えば、「エージェントを使ってリポジトリの失敗しているテストを修正する」。
  2. GLM-4.7とGPT-5で同じプロンプトとツールを使用して10回ずつ実行します。
  3. 成功率、トークン総数、コスト、そして出力を読んでどれだけイライラするかを追跡します。

その小さな実験は、GLM-4.7対GPT-5があなたの人生にどれだけ影響するかをマーケティングページやブログ記事よりも多く教えてくれます。

そして、実際にあなたのために仕事をするものを選びましょう。派手なベンチマークチャートではなく。

あなたにとって最適なモデルは、リーダーボードではなく、ワークフローに依存します。

これらのテストの後、不快な真実はこれです:ほとんどの個人およびインディーワークフローでは、モデル自体よりもその周りに組み込まれたエージェント設計の方が重要です。

それこそが私たちがMacaronで構築しているものです。私たちは単一の「最良」モデルに賭けません。私たちは、あなたがどのように働くか、何を気にするか、どのように反復するか、そして通常どこで問題が発生するかを実際に学ぶメモリシステムとともに、利用可能な最強のモデルを組み合わせます。

実際にそれがどのように感じるか興味があるなら、自分で試してみてください。 [無料でMacaronを試す→]

Nora は Macaron の成長部門を率いています。この2年間、AI製品の成長に注力し、複数のプロジェクトをゼロから立ち上げまで成功に導いてきました。成長戦略において豊富な経験を持っています。

応募する Macaron の最初の友達