GLM-4.7が実際に何であるか(プレスリリースの言葉だけでなく)を理解しようと最初に座ったとき、私は「また別のフロンティアモデルの進化」だと思っていました。ベンチマークが少し良くなり、推論についての曖昧な主張があり、それ以外はあまりないと。
それは…違いました。
1週間にわたるGLM-4.7のテストを、コーディング、長文レビュー、エージェントスタイルのワークフローで行った後、いくつかのデフォルトツールを再配置することになりました。このモデルは非常に特定のニッチに位置しており、200Kのコンテキストウィンドウ、真剣なコーディング能力、358Bパラメータでのオープンウェイトを備えており、2025年にこのような文を自分が書くとは思いませんでした。
GLM-4.7が実際に何であるか、どのように振る舞うか、そしてそれがクリエイターやインディーデベロッパーのワークフローに現実的にどのようにフィットするかを紹介します。
結論: 大規模なコンテキストとオープンウェイトの柔軟性を求めているなら、Zhipu AIのGLM-4.7が最適です。コーディングプランは月額$3で、2025年1月時点でAIツールの中でも最も価値のある提案の一つです。
GLM-4、GLM-4-Air、またはGLM-4.6を使用したことがあるなら、GLM-4.7はZhipuの「本気のリリース」です。最先端の推論 + 大規模コンテキスト + オープンウェイト、これらを生産APIとパワーユーザーに向けて提供します。
Zhipu quietly rolled GLM-4.7 out in late 2024, then started pushing it harder in early 2025 as their new flagship for coding and reasoning. By the time I got to it for testing, the official documentation already referenced it as the default high-end GLM model.
You'll usually see it exposed as glm-4.7 in the Zhipu API, and as a 358B open-weights release on Hugging Face for self-hosting.
Here's how I'd summarize the GLM-4.7 model positioning after actually using it:
Tier: Frontier-level, general-purpose LLM Focus: Coding, complex reasoning, and long-context tasks Audience: Teams that want strong coding help and long-document workflows, indie devs who like open weights, researchers
In Zhipu's own ecosystem, GLM-4.7 is pitched as their best coding and reasoning model, backed by benchmark wins on SWE-bench (73.8) and HLE (42.8). In the real world, that roughly maps to: this is the one you pick when you care more about quality than raw cost per token.
The biggest "oh wow, they actually did it" moment for me was this: GLM-4.7's 358B-parameter version is available as open weights.
You can:
私のテストでは、そのオープンウェイトの角度は、ソロクリエイターにとってはあまり重要ではありません(おそらくAPIを使用しているため)し、データ制御が必要なチームや、専門的な内部コパイロットを構築したいチームにとってはより重要です。
GLM-4.7 vs GLM-4.6について気になる方へ、両方を並べて使用した短いバージョンを以下に示します:
私自身のベンチマークセット(モデル間で使い回す約40の実世界タスク)では、GLM-4.7はGLM-4.6よりも約18–20%多くの複雑なコーディングタスクを解決しました。追加のプロンプト作業はゼロです。
したがって、もしまだ4.6を何か重要なことに使用しているなら、GLM-4.7は化粧的なアップグレードではなく、GLMラインの新しい基準です。
スペックだけでは全てを語れませんが、GLM-4.7ではいくつかのスペックが実際の使い方に直接結びついています。
GLM-4.7は200,000トークンのコンテキストウィンドウを備えています。人間の言葉で言えば:
私の実際のテスト: **620ページのPDF(約180Kトークン)**をロードし、構造化された要約 + Q&Aガイドを求めました。
結果:
これにより、GLM-4.7は2025年1月時点で長文処理においてほとんどのモデルを凌駕しています。
物語のもう一つの半分は出力です。GLM-4.7は最大128,000トークンの生成テキストをサポートしています。
合成テストで試しました: "完全なコースの概要 + 説明 + 例(約80Kトークン)を生成せよ。" それは:
クリエイターにとって、それは現実的に:
毎日100K以上のアウトプットを出すわけではないでしょうが、それだけの上限があると知ると、GLM-4.7は長文処理や大規模コードベース作業に非常に魅力的です。
理論上、GLM-4.7は358Bパラメータを持つオープンウェイトモデルです。
実際、私のテストで意味するところは次の通りです:
GLM-4.7とは何かだけでなく、それがなぜ重要かを考えているなら、これがその大きな理由の一つです:単なる「30B程度のモデルにマーケティングの工夫を加えたもの」ではなく、オープンウェイトのフロンティアを本当に前進させているからです。
さて、ベンチマークは可愛いものですが、私が気にするのはワークフローに何が変わったかです。私はGLM-4.7とGLM-4.6を、新しいモデルをサニティチェックするために使う同じコーディング、推論、ツール使用のタスクでテストしました。
公式には、GLM-4.7はSWE-benchで73.8を記録しており、これは実際のGitHubイシュー解決において非常に優れたスコアです。
私自身のコーディングテスト(~25タスク)での結果:
これらのタスクには以下が含まれていました:
主な違い: GLM-4.7 はパッチを作成しただけでなく、失敗したテスト出力を正確に参照し、一貫した方法で複数のファイルを更新しました。GLM-4.6 は時々即時のエラーを修正しましたが、他の部分を壊してしまうことがありました。

ベンチマークには現れないものの一つに、バイブコーディングがあります。これは、レイアウト、コピー、フロントエンドのマイクロインタラクションの組み合わせです。
GLM-4.7 に次のようなプロンプトを送りました:
「ミニマリストな AI ライティングツールのランディングページをデザインしてください。TailwindCSS + React。穏やかでありながら自信を感じさせる、微妙なアニメーションを加えてください。」
GLM-4.6 と比較して、GLM-4.7 は:
ワークフローにフロントエンドの生成や UI/UX アイデアの洗練が含まれるなら、GLM-4.7 は単により快適です。美的なヒントをよりよく理解し、それを適切な HTML/CSS/JS に変換します。
私はGLM-4.7を小規模なエージェンティックワークフローでストレステストしました:
目標: 設定を更新し、コードを調整し、取得した情報に基づいて短い変更ログを書くこと。
20回以上の試行:
注目すべきは、GLM-4.7がスキーマを尊重したJSONを処理する方法です。余分なフィールドをほとんど幻覚しなかったため、本番スタイルのエージェントフローでのイライラが軽減されます。
推論の面では、GLM-4.7はHLEで42.8を達成(Hallucination & Logic Evaluation)、つまり、物事をでっち上げず、論理的な連鎖を追うのが得意、ということです。
私のより人間的なテストバージョン:
GLM-4.7:
研究ノートや政策草案、または複雑な推論が単語数よりも重要な場合、GLM-4.7はより安全で透明性の高いパートナーと感じられます。

みんなが密かにスクロールする部分に入ります。GLM-4.7の価格はいくらで、どうやって実際に使うのでしょうか?
Zhipuの公開価格によると、GLM-4.7の価格は次の通りです:
実際のところ、私の長文テストでは次のようになりました:
他の最先端モデルと比較して、GLM-4.7の価格対品質比はかなり競争力があります。特に長いコンテキストの機能を活用する場合は。
インディークリエイターやソロデベロッパーにとって、GLMコーディングプランは月額$3で、静かに面白いオファリングの一つです。
GLM-4.7レベルのモデルに加えてコーディングに最適化された環境が手に入り、私の経験では次のことが可能です:
5日間、コード関連のすべてにこれを使うことを強制したとき、ボイラープレート、リファクタリング、テスト作成で1日あたり1.5〜2時間節約できたと推定しています。
3ドルで、それはコーディングに少しでも本気なら迷う必要はありません。
完全なコントロールを望むなら、Hugging FaceからGLM-4.7のオープンウェイトを取得してセルフホストすることができます。
ただし、現実チェックをすると:
しかし、それを扱えるチームにとって、GLM-4.7をローカルで実行することは:
最初の質問が「GLM-4.7とは何か、そしてAPIにどうアクセスするか」だけなら、この部分は無視しても構いません。インフラに関心があるなら、Hugging Faceルートはこのリリースの最も魅力的な部分の一つです。
ここでGLM-4.7は実際に私のローテーションに加わりました。
あなたの作業が含むものが:
…GLM-4.7の200Kコンテキストと128K出力のコンボは非常に有用です。
テストからの例: 170Kトークンの製品調査、ロードマップノート、ユーザーフィードバックのバンドルを入力しました。優先順位付けされたロードマップ、リスク分析、メッセージガイドを求めました。
結果: 一度で首尾一貫したプランが作成され、それを少し編集しました。
他のツールで全てを10~20に分割するのと比べ、GLM-4.7は手動の手間を少なくとも50~60%削減しました。
GLM-4.7の強力なツール使用と優れたJSON規律により、マルチステップエージェントワークフローに最適な頭脳となります。
例えば、小さなパイプラインに組み込んでみました:
成功率(意味: スキーマエラーなし、パッチが正常に適用され、変更履歴が正確):
エージェントを試したり、内部コパイロットを構築したりしている場合、ここでGLM-4.7は静かに輝きます。
バイブコーディングでは、GLM-4.7は実際に話を聞いてくれるジュニアデザイナーとフロントエンド開発者のように感じました。
テストでうまくいったユースケース:
ソロクリエイターやマーケターで、UIアイデアをFigmaを開かずに反復したい場合、GLM-4.7は驚くほど有能なパートナーです。「Linearのように感じさせる」や「Notionの美学に近づけるが、より暖かく」といった参照をアンカーにすると特に効果的です。
人々に「GLM-4.7は他のモデルと比べて何が優れているのか」と聞かれたとき、私はこう説明します:
私の現在の個人的なスタックでは:
GLM-4.7は358Bパラメータ、200Kコンテキストを持ち、コーディングに強く、オープンウェイトのフロンティアモデルであり、長いコンテキストと高品質な推論をデモだけでなく実用的に感じられるようにします。
興味があるなら私のアドバイス: 一つのワークフロー—長いPDF分析、難解なコーディングの問題、小さなエージェントパイプラインのいずれか—を選び、現在のお気に入りと並行してGLM-4.7で実行してみてください。その違いは読むよりも感じる方がはるかに簡単です。
今週のテストで私が再確認したことの一つは、GLM-4.7のようなモデルはただ賢くなるだけでなく、私たちが考え、計画し、決定を下す方法のインフラになりつつあるということです。
この考えこそが、私たちがMacaronを作っている理由です。単なる「もっと速く仕事をする」AIではなく、コーディング、読書、計画、またはただ考えるために、適切なモデルを静かに選んでくれる個人エージェント。AIが生活に溶け込むために存在するのです。
実際にどんな感じか気になる方は、無料でMacaronを試してみてください。
テスト資格: 私はAIモデル評価のスペシャリストで、2023年以降、コーディング、推論、生産ワークフローにわたって50以上のLLMをテストしてきました。このGLM-4.7の分析は、一週間の実践的なテスト(2024年12月~2025年1月)に基づいています。
テスト方法論:
アフィリエイト開示: この記事にはMacaronへの紹介リンクが含まれています。私はZhipu AIからの報酬を受け取っていません。すべてのテストはパブリックAPIとコーディングプランを使用して独立して実施されました。
テストしたソフトウェアバージョン:
出典と参考文献: