私が初めて座ってGLM-4.7が実際に何であるか(プレスリリースの言葉だけでなく)を理解しようとしたとき、「また別のフロンティアモデルのちょっとした向上」を期待していました。少し良くなったベンチマーク、曖昧な推論の主張、そしてそれ以外はあまりないと。
それが…実際にはそうではありませんでした。
GLM-4.7をコーディング、長文レビュー、エージェントスタイルのワークフローで1週間テストした後、いくつかのデフォルトツールを再編成することになりました。このモデルは非常に特定のニッチに位置しており、大きなコンテキスト、真剣なコーディング能力、そして358Bパラメータのオープンウェイトがあるのです。これは2025年に書くとは思わなかった文です。
GLM-4.7が実際に何であるか、どのように動作するのか、そしてクリエイターやインディーデベロッパーのワークフローにどのように現実的に適合するのかを説明させてください。
もしあなたが以前にGLM-4、GLM-4-Air、またはGLM-4.6を使用したことがあるなら、GLM-4.7はZhipuの「もう遊びではない」リリースです。フロンティアレベルの推論+大きなコンテキスト+オープンウェイトを備えたもので、プロダクションAPIやパワーユーザーに向けています。
Zhipuは2024年末にGLM-4.7を静かにリリースし、2025年初頭にはそれを新しいフラッグシップとして積極的に推進し始めました。私がテストでそれを手にした時には、ドキュメントには既にデフォルトのハイエンドGLMモデルとして記載されていました。
通常、Zhipu APIではglm-4.7のように表示されることがあり、Hugging Faceでは358Bのオープンウェイトリリースとしてセルフホスティングが可能です。
実際に使用してみてのモデルの位置づけを以下のように要約します:
Zhipuのエコシステム内では、GLM-4.7は最高のコーディングと推論モデルとして位置づけられており、SWE-benchやHLEなどのベンチマークでの勝利に裏付けられています。現実の世界では、品質を重視し、トークンあたりのコストよりも重要視する場合に選ばれるモデルです。
私にとって「おお、彼らは本当にやったんだ」と思った最大の瞬間はこれでした:GLM-4.7の358Bパラメータ版がオープンウェイトとして利用可能。
あなたは以下ができます:
私のテストでは、このオープンウェイトの角度は、ソロクリエイターにとってはあまり重要ではなく(おそらくAPIを使用しているため)、データ管理が必要なチームや、専門的な内部コパイロットを構築したいチームにとってより重要です。
GLM-4.7とGLM-4.6を並べて使用した短いバージョンを以下に示します:
私自身のベンチマークセット(約40の実際のタスクをモデル間で再利用)では、GLM-4.7はGLM-4.6よりも複雑なコーディングタスクを約18〜20%多く解決し、追加のプロンプティング努力はゼロでした。
ですので、もしあなたがまだ4.6を何か重要なことに使っているなら、GLM-4.7は単なる見た目のアップグレードではなく、GLMラインの新しい基準です。
スペックだけでは全てを語ることはできませんが、GLM-4.7のいくつかの特徴は、日常的にどのように使うかに直接関係しています。
GLM-4.7は200Kトークンのコンテキストウィンドウを備えています。人間の言葉で言えば、これは次のようなものです:
私のテストでは:
レイテンシーは上昇し、応答時間は小さなプロンプトでの約3〜4秒から、その巨大な入力では約13〜18秒に増加しましたが、崩れたり大きく幻覚を見たりすることはなく、これは通常、長いコンテキストのマーケティング主張を台無しにする原因です。
もう一つの側面は出力です。GLM-4.7は最大128Kトークンの生成されたテキストをサポートします。
合成テストで挑戦しました:「完全なコースアウトライン+説明+例(約80Kトークン)を生成せよ。」結果は:
クリエイターにとって、それは現実的に以下のことが可能です:
100K以上の出力を毎日使うことはないかもしれませんが、それだけの上限があることを知っていると、GLM-4.7は長文処理や大規模なコードベース作業に非常に魅力的です。
表面的には、GLM-4.7は358Bパラメーターのモデルで、オープンウェイトを持っています。
実際のテストでは、次のことがわかりました:
GLM-4.7が何であるかだけでなく、なぜそれが重要なのかを自問しているなら、これがその大きな理由の一つです: それは単に「マーケティングの装飾が付いたもう一つの30B-ishモデル」ではなく、オープンウェイトのフロンティアを本当に前進させます。
さて、ベンチマークは可愛いけれど、私が気にするのはワークフローで何が変わったかです。私は新しいモデルを正気確認するために使用する同じコーディング、推論、ツール使用タスクをGLM-4.7とGLM-4.6で実行しました。
公式には、GLM-4.7はSWE-benchで73.8を記録しており、これは実際のGitHubの問題解決において重要なスコアです。
私自身のコーディングテスト(約25タスク)では:
これらのタスクには次のものが含まれます:
主な違いは、GLM-4.7がパッチを書いただけでなく、しばしば失敗したテストの出力を正確に参照し、複数のファイルを一貫して更新したことです。4.6は時々即時のエラーを修正しましたが、他の部分を壊してしまうことがありました。
ベンチマークには現れないものの一つがバイブコーディングです。これは、レイアウト、コピー、フロントエンドのマイクロインタラクションの組み合わせです。
私はGLM-4.7に次のようなプロンプトを与えました:
「ミニマルなAIライティングツールのランディングページを設計してください。TailwindCSS + Reactを使用し、落ち着いているが自信を感じさせるような微妙なアニメーションを加えてください。」
GLM-4.6と比較して、GLM-4.7は:
ワークフローがフロントエンド生成やUI/UXアイデアの磨き上げを含む場合、GLM-4.7は単により心地よいです。美的なヒントをよりよく理解し、それらを合理的なHTML/CSS/JSに変換します。
また、GLM-4.7を小規模なエージェントワークフローでストレステストしました:
目標: 設定を更新し、コードを調整し、取得した情報に基づいて短い変更ログを書く。
20回の実行で:
特に印象的だったのは、GLM-4.7がスキーマに従ったJSONを扱う方法です。余分なフィールドをほとんど幻覚しないため、プロダクションスタイルのエージェントフローでの煩わしさが大幅に減少します。
推論の側面では、GLM-4.7はHLE(幻覚と論理評価)で42.8を達成しています。これは言い換えれば、でっち上げをせず、論理的な連鎖を追うのが上手いということです。
私のより人間的なバージョンのテスト:
GLM-4.7:
研究ノートや政策草案など、複雑な推論が単語数よりも重要な場合、GLM-4.7はより安全で透明性のあるパートナーのように感じます。
さて、皆が静かにスクロールする部分:GLM-4.7の価格はいくらで、実際にどのように使用するか?
ZhipuのGLM-4.7の公表料金は次の通りです:
実際には、私の長文ドキュメントテストの一例では次のようになりました:
他の最先端モデルと比較して、GLM-4.7の価格対品質比はかなり競争力があり、特に長いコンテキスト機能を活用する場合に有利です。
インディークリエイターやソロ開発者向けに、月額$3のGLMコーディングプランは静かに興味深い選択肢の一つです。
GLM-4.7レベルのモデルに加え、コーディングに最適化された環境が提供され、私の経験では次のことが可能です:
コードに関するすべてのことに使うことを強制した5日間の期間で、ボイラープレート、リファクタリング、テスト作成に1日あたり1.5〜2時間節約できたと推定しています。
3ドルで、それはコーディングに真剣に取り組んでいるなら、間違いなくお得です。
完全なコントロールを望むなら、Hugging FaceからGLM-4.7のオープンウェイトを取得してセルフホストできます。
ただし、現実を考えると:
しかし、それを扱えるチームにとって、GLM-4.7をローカルで実行することは次のことを意味します:
あなたの最初の質問が「GLM-4.7とは何で、APIにどうアクセスするか」だけなら、この部分は無視しても構いません。インフラに関心があるなら、Hugging Faceのルートはこのリリースの最も魅力的な部分の一つです。
ここがGLM-4.7が実際に私のローテーションに加わった理由です。
もしあなたの仕事が以下を含む場合:
…GLM-4.7の200Kコンテキストと128K出力の組み合わせは非常に役立ちます。
私のテストからの例:
他のツールで全てを10〜20のチャンクに分割するのと比べて、GLM-4.7は手動の手間を少なくとも50〜60%削減しました。
GLM-4.7の強力なツール使用と優れたJSON規律により、マルチステップエージェントワークフローの優れた頭脳となります。
例えば、小さなパイプラインに組み込みました:
成功率(意味: スキーマエラーなし、パッチがきれいに適用され、チェンジログが正確):
エージェントを使って遊んだり、内部コパイロットを構築したりする場合、GLM-4.7が静かに輝くのはここです。
バイブコーディングでは、GLM-4.7は実際に話を聞いてくれるジュニアデザイナーとフロントエンド開発者がいるように感じました。
テストでうまくいったユースケース:
Figmaを開かずにUIアイデアを反復したいソロクリエイターやマーケターの方にとって、GLM-4.7は意外にも有能なパートナーです。特に「Linearのように感じさせる」や「Notionの美学に近づけるが、より温かく」というような参照をアンカーにしたときに。
人々がGLM-4.7が他のモデルと比べて何が優れているのかを尋ねるとき、私はこう説明します:
私の現在の個人的なスタックでは:
インディークリエイター/マーケターの視点からの実用的な要点:
では、GLM-4.7を一言で言うと何でしょうか?
これは、358Bパラメータ、200Kコンテキスト、コーディングに強く、オープンウェイトのフロンティアモデルで、長いコンテキストと高品質な推論を使いやすく、デモだけではないものにしてくれます。
興味があるなら、私のアドバイスはシンプルです: 一つのワークフロー、長いPDF分析、頑固なコーディング問題、または小さなエージェントパイプラインを選び、現在のお気に入りと並行してGLM-4.7を試してください。その違いは読むよりも感じる方がずっと簡単です。
今週のテストで改めて確認したことの一つは、GLM-4.7のようなモデルはただ賢くなるだけでなく、私たちの思考、計画、意思決定の「インフラ」として機能し始めているということです。
この考えが、実際に私たちがMacaronを開発している理由です。 「もっと速く仕事をする」AIではなく、コーディング、読書、計画、またはただ考えることのために、そっと適切なモデルを選んでくれる個人エージェントです。AIが人生に溶け込むようにしているのです。
実際にどんな感じか気になる方は、こちらで試してみてください: → Macaronを無料で試す