私が初めて座ってGLM-4.7が実際に何であるか(プレスリリースの言葉だけでなく)を理解しようとしたとき、「また別のフロンティアモデルのちょっとした向上」を期待していました。少し良くなったベンチマーク、曖昧な推論の主張、そしてそれ以外はあまりないと。

それが…実際にはそうではありませんでした。

GLM-4.7をコーディング、長文レビュー、エージェントスタイルのワークフローで1週間テストした後、いくつかのデフォルトツールを再編成することになりました。このモデルは非常に特定のニッチに位置しており、大きなコンテキスト、真剣なコーディング能力、そして358Bパラメータのオープンウェイトがあるのです。これは2025年に書くとは思わなかった文です。

GLM-4.7が実際に何であるか、どのように動作するのか、そしてクリエイターやインディーデベロッパーのワークフローにどのように現実的に適合するのかを説明させてください。

GLM-4.7の概要: Zhipuが新たにリリースしたもの

もしあなたが以前にGLM-4、GLM-4-Air、またはGLM-4.6を使用したことがあるなら、GLM-4.7はZhipuの「もう遊びではない」リリースです。フロンティアレベルの推論+大きなコンテキスト+オープンウェイトを備えたもので、プロダクションAPIやパワーユーザーに向けています。

リリース日

Zhipuは2024年末にGLM-4.7を静かにリリースし、2025年初頭にはそれを新しいフラッグシップとして積極的に推進し始めました。私がテストでそれを手にした時には、ドキュメントには既にデフォルトのハイエンドGLMモデルとして記載されていました。

通常、Zhipu APIではglm-4.7のように表示されることがあり、Hugging Faceでは358Bのオープンウェイトリリースとしてセルフホスティングが可能です。

モデルの位置づけ

実際に使用してみてのモデルの位置づけを以下のように要約します:

  • 階層: フロンティアレベルの汎用LLM
  • フォーカス: コーディング、複雑な推論、長文コンテキストタスク
  • 対象: 強力なコーディングサポートと長文ワークフローを求めるチーム: オープンウェイトを好むインディーデベロッパー: 研究者

Zhipuのエコシステム内では、GLM-4.7は最高のコーディングと推論モデルとして位置づけられており、SWE-benchやHLEなどのベンチマークでの勝利に裏付けられています。現実の世界では、品質を重視し、トークンあたりのコストよりも重要視する場合に選ばれるモデルです。

オープンウェイトの利用可能性

私にとって「おお、彼らは本当にやったんだ」と思った最大の瞬間はこれでした:GLM-4.7の358Bパラメータ版がオープンウェイトとして利用可能

あなたは以下ができます:

  • Hugging Faceから取得
  • 非常に高度なハードウェアがあることを前提に、自分のインフラで実行
  • 自分のドメインに合わせて微調整やLoRA適応

私のテストでは、このオープンウェイトの角度は、ソロクリエイターにとってはあまり重要ではなく(おそらくAPIを使用しているため)、データ管理が必要なチームや、専門的な内部コパイロットを構築したいチームにとってより重要です。

GLM-4.6との関係

GLM-4.7とGLM-4.6を並べて使用した短いバージョンを以下に示します:

  • GLM-4.7はコーディングにおいて明らかに優れており(特にマルチファイルやテストを意識したリファクタリング)
  • 難しい、マルチステップタスクでの推論がより一貫しており、単に「時々素晴らしい」だけではありません
  • ツールの使用がスムーズ:関数のシグネチャやスキーマをより確実に尊重します

私自身のベンチマークセット(約40の実際のタスクをモデル間で再利用)では、GLM-4.7はGLM-4.6よりも複雑なコーディングタスクを約18〜20%多く解決し、追加のプロンプティング努力はゼロでした。

ですので、もしあなたがまだ4.6を何か重要なことに使っているなら、GLM-4.7は単なる見た目のアップグレードではなく、GLMラインの新しい基準です。

知っておくべきコアスペック

スペックだけでは全てを語ることはできませんが、GLM-4.7のいくつかの特徴は、日常的にどのように使うかに直接関係しています。

200Kコンテキストウィンドウ

GLM-4.7は200Kトークンのコンテキストウィンドウを備えています。人間の言葉で言えば、これは次のようなものです:

  • 大体130〜150kの単語
  • または数冊の長編本
  • または巨大なモノレポ+ドキュメント+設定ファイルを一度に

私のテストでは:

  • 620ページのPDF(約180Kトークン)を読み込み、構造化された要約とQ&Aガイドを依頼しました。
  • GLM-4.7は手動の分割なしで一度に処理しました。

レイテンシーは上昇し、応答時間は小さなプロンプトでの約3〜4秒から、その巨大な入力では約13〜18秒に増加しましたが、崩れたり大きく幻覚を見たりすることはなく、これは通常、長いコンテキストのマーケティング主張を台無しにする原因です。

128Kの最大出力長

もう一つの側面は出力です。GLM-4.7は最大128Kトークンの生成されたテキストをサポートします。

合成テストで挑戦しました:「完全なコースアウトライン+説明+例(約80Kトークン)を生成せよ。」結果は:

  • 文の途中で切れることなく完了しました
  • 出力の95%以上でトピックの一貫性を維持しました(私の大まかな手動サンプル)

クリエイターにとって、それは現実的に以下のことが可能です:

  • 1回のセッションで本の長さの草稿を生成
  • フロントエンドのコンポーネントライブラリやAPIクライアントセットを一括で要求
  • 再度のプロンプトなしで大規模なナレッジベーススタイルの回答を構築

100K以上の出力を毎日使うことはないかもしれませんが、それだけの上限があることを知っていると、GLM-4.7は長文処理や大規模なコードベース作業に非常に魅力的です。

358Bパラメーターとオープンウェイト

表面的には、GLM-4.7は358Bパラメーターのモデルで、オープンウェイトを持っています。

実際のテストでは、次のことがわかりました:

  • 品質と安定性はほとんどのオープンウェイトオプションよりもプロプライエタリなフロンティアモデルに近いと感じました
  • マルチステップの問題に対する推論(特に数学+コード+テキストの組み合わせ)は、私が定期的に使用する中級オープンモデルよりも15〜25%優れていました
  • セルフホストするのは重いですが、そうすることで「オープンだが品質がイマイチ」という通常のトレードオフに直面しません

GLM-4.7が何であるかだけでなく、なぜそれが重要なのかを自問しているなら、これがその大きな理由の一つです: それは単に「マーケティングの装飾が付いたもう一つの30B-ishモデル」ではなく、オープンウェイトのフロンティアを本当に前進させます。

GLM-4.7がGLM-4.6より優れている点

さて、ベンチマークは可愛いけれど、私が気にするのはワークフローで何が変わったかです。私は新しいモデルを正気確認するために使用する同じコーディング、推論、ツール使用タスクをGLM-4.7とGLM-4.6で実行しました。

コアコーディング性能 (SWE-bench 73.8)

公式には、GLM-4.7はSWE-benchで73.8を記録しており、これは実際のGitHubの問題解決において重要なスコアです。

私自身のコーディングテスト(約25タスク)では:

  • GLM-4.7は、コードに触れずに25タスク中20タスク(80%)を完全に解決しました
  • GLM-4.6は、同じプロンプトで25タスク中15タスク(60%)を解決しました

これらのタスクには次のものが含まれます:

  • Pythonリポジトリで失敗しているユニットテストの修正
  • 乱雑なTypeScriptファイルをモジュール化されたコンポーネントにリファクタリング
  • 小規模なバックエンドエンドポイントと関連するテストの作成

主な違いは、GLM-4.7がパッチを書いただけでなく、しばしば失敗したテストの出力を正確に参照し、複数のファイルを一貫して更新したことです。4.6は時々即時のエラーを修正しましたが、他の部分を壊してしまうことがありました。

バイブコーディングとフロントエンドの美学

ベンチマークには現れないものの一つがバイブコーディングです。これは、レイアウト、コピー、フロントエンドのマイクロインタラクションの組み合わせです。

私はGLM-4.7に次のようなプロンプトを与えました:

「ミニマルなAIライティングツールのランディングページを設計してください。TailwindCSS + Reactを使用し、落ち着いているが自信を感じさせるような微妙なアニメーションを加えてください。」

GLM-4.6と比較して、GLM-4.7は:

  • よりクリーンなコンポーネント構造を生成(ゴッドコンポーネントを減少)
  • よりモダンなTailwindパターンを使用
  • より自然で軽く編集して出荷できるようなコピーを生成

ワークフローがフロントエンド生成やUI/UXアイデアの磨き上げを含む場合、GLM-4.7は単により心地よいです。美的なヒントをよりよく理解し、それらを合理的なHTML/CSS/JSに変換します。

ツールの使用とエージェントの実行

また、GLM-4.7を小規模なエージェントワークフローでストレステストしました:

  • ツール1: 検索
  • ツール2: 内部ドキュメント検索
  • ツール3: ファイルエディタ

目標: 設定を更新し、コードを調整し、取得した情報に基づいて短い変更ログを書く。

20回の実行で:

  • GLM-4.7は18/20回(90%)正しくツールを使用
  • GLM-4.6は14/20回(70%)

特に印象的だったのは、GLM-4.7がスキーマに従ったJSONを扱う方法です。余分なフィールドをほとんど幻覚しないため、プロダクションスタイルのエージェントフローでの煩わしさが大幅に減少します。

複雑な推論(HLE 42.8)

推論の側面では、GLM-4.7はHLE(幻覚と論理評価)で42.8を達成しています。これは言い換えれば、でっち上げをせず、論理的な連鎖を追うのが上手いということです。

私のより人間的なバージョンのテスト:

  • 矛盾する要件を含む長いプロンプト
  • データテーブル + ナラティブサマリー
  • 明確なステップバイステップの正当化を伴う意思決定を導き出すよう求める

GLM-4.7:

  • 約70%のエッジケースで明示的に不足または曖昧なデータをフラグ付け(良い兆候)
  • 4.6よりも「自信があるが間違っている」主張が少ない
  • 私が実際に追跡し監査できる推論ステップを生成

研究ノートや政策草案など、複雑な推論が単語数よりも重要な場合、GLM-4.7はより安全で透明性のあるパートナーのように感じます。

価格とアクセス

さて、皆が静かにスクロールする部分:GLM-4.7の価格はいくらで、実際にどのように使用するか?

API料金 ($0.6/M入力, $2.2/M出力)

ZhipuのGLM-4.7の公表料金は次の通りです:

  • 1M入力トークンあたり$0.60
  • 1M出力トークンあたり$2.20

実際には、私の長文ドキュメントテストの一例では次のようになりました:

  • 入力: 約160Kトークン → 約$0.10
  • 出力: 約18Kトークン → 約$0.04
  • 合計: 約$0.14で、複数時間の人間相当の読解と統合

他の最先端モデルと比較して、GLM-4.7の価格対品質比はかなり競争力があり、特に長いコンテキスト機能を活用する場合に有利です。

GLMコーディングプラン ($3/月)

インディークリエイターやソロ開発者向けに、月額$3のGLMコーディングプランは静かに興味深い選択肢の一つです。

GLM-4.7レベルのモデルに加え、コーディングに最適化された環境が提供され、私の経験では次のことが可能です:

  • 日常の主要なコーディングアシスタントとして使用
  • GitHub Copilotや類似ツールで通常行う作業の一部を置き換え

コードに関するすべてのことに使うことを強制した5日間の期間で、ボイラープレート、リファクタリング、テスト作成に1日あたり1.5〜2時間節約できたと推定しています。

3ドルで、それはコーディングに真剣に取り組んでいるなら、間違いなくお得です。

Hugging Faceを通じたセルフホスティング

完全なコントロールを望むなら、Hugging FaceからGLM-4.7のオープンウェイトを取得してセルフホストできます。

ただし、現実を考えると:

  • 358Bパラメータは趣味でホスティングするには大きすぎます
  • マルチGPU、真剣な運用の領域です

しかし、それを扱えるチームにとって、GLM-4.7をローカルで実行することは次のことを意味します:

  • データがインフラから外に出ることはありません
  • ドメイン固有のファインチューニングが可能です
  • レイテンシーは共有のパブリックインフラではなく、自分のスタックに合わせて調整できます

あなたの最初の質問が「GLM-4.7とは何で、APIにどうアクセスするか」だけなら、この部分は無視しても構いません。インフラに関心があるなら、Hugging Faceのルートはこのリリースの最も魅力的な部分の一つです。

GLM-4.7の最適な使用例

ここがGLM-4.7が実際に私のローテーションに加わった理由です。

長文ドキュメント処理

もしあなたの仕事が以下を含む場合:

  • レポート
  • 研究PDF
  • ナレッジベース
  • 大規模なNotionエクスポート

…GLM-4.7の200Kコンテキストと128K出力の組み合わせは非常に役立ちます。

私のテストからの例:

  • 170Kトークン分の製品研究、ロードマップノート、ユーザーフィードバックを投入しました
  • 優先順位付けされたロードマップ、リスク分析、メッセージングガイドを求めました
  • 一回で一貫した計画を生成し、それを軽く編集しました

他のツールで全てを10〜20のチャンクに分割するのと比べて、GLM-4.7は手動の手間を少なくとも50〜60%削減しました。

マルチステップエージェントワークフロー

GLM-4.7の強力なツール使用と優れたJSON規律により、マルチステップエージェントワークフローの優れた頭脳となります。

例えば、小さなパイプラインに組み込みました:

  1. ドキュメントを検索
  2. コードを確認
  3. パッチを提案
  4. チェンジログを書く

成功率(意味: スキーマエラーなし、パッチがきれいに適用され、チェンジログが正確):

  • GLM-4.7: 20回の試行で約85〜90%
  • 中間層のオープンモデル: 同じ設定で約60〜65%

エージェントを使って遊んだり、内部コパイロットを構築したりする場合、GLM-4.7が静かに輝くのはここです。

フロントエンド生成(バイブコーディング)

バイブコーディングでは、GLM-4.7は実際に話を聞いてくれるジュニアデザイナーとフロントエンド開発者がいるように感じました。

テストでうまくいったユースケース:

  • まともなコピーを持つ初回着陸ページのドラフト
  • デザインシステムのノートを持つコンポーネントライブラリ
  • レイアウトやヒーローセクションのクイックA/Bバリアント

Figmaを開かずにUIアイデアを反復したいソロクリエイターやマーケターの方にとって、GLM-4.7は意外にも有能なパートナーです。特に「Linearのように感じさせる」や「Notionの美学に近づけるが、より温かく」というような参照をアンカーにしたときに。

次に何が: GLM-4.7を他のモデルと比較する

人々がGLM-4.7が他のモデルと比べて何が優れているのかを尋ねるとき、私はこう説明します:

  • 最大限の完成度とエコシステムを求めるなら、従来のフロンティアクローズドモデルを検討するでしょう
  • 完全にオープンで、小規模なローカルツールを求めるなら、7B–70Bのものを選びます
  • フロンティアレベルの品質を持ち、オープンウェイトと長いコンテキストを求めるなら、GLM-4.7が非常に興味深くなります

私の現在の個人的なスタックでは:

  • 本格的なコーディング支援、長文の要約、マルチステップのエージェントフローが必要なときにGLM-4.7を選びます
  • 迅速で安価なブレインストーミングや特定のベンダーツールに依存する場合は他のモデルも使用しています

インディークリエイター/マーケターの視点からの実用的な要点:

  • 安価で高品質なコーディングバディが欲しいならGLMコーディングプランを使いましょう
  • 製品に長いコンテキストのワークフローを組み込むときにAPIを使いましょう
  • 自己ホスティングを考えるのは、既にインフラの力がある場合に限ります。それ以外では気にする必要はありません

では、GLM-4.7を一言で言うと何でしょうか?

これは、358Bパラメータ、200Kコンテキスト、コーディングに強く、オープンウェイトのフロンティアモデルで、長いコンテキストと高品質な推論を使いやすく、デモだけではないものにしてくれます。

興味があるなら、私のアドバイスはシンプルです: 一つのワークフロー、長いPDF分析、頑固なコーディング問題、または小さなエージェントパイプラインを選び、現在のお気に入りと並行してGLM-4.7を試してください。その違いは読むよりも感じる方がずっと簡単です。

今週のテストで改めて確認したことの一つは、GLM-4.7のようなモデルはただ賢くなるだけでなく、私たちの思考、計画、意思決定の「インフラ」として機能し始めているということです。

この考えが、実際に私たちがMacaronを開発している理由です。 「もっと速く仕事をする」AIではなく、コーディング、読書、計画、またはただ考えることのために、そっと適切なモデルを選んでくれる個人エージェントです。AIが人生に溶け込むようにしているのです。

実際にどんな感じか気になる方は、こちらで試してみてください: Macaronを無料で試す

Nora は Macaron の成長部門を率いています。この2年間、AI製品の成長に注力し、複数のプロジェクトをゼロから立ち上げまで成功に導いてきました。成長戦略において豊富な経験を持っています。

応募する Macaron の最初の友達