GLM-4.7とは何か?智譜の358B AIモデルの完全レビュー(2025)

GLM-4.7が実際に何であるか(プレスリリースの言葉だけでなく)を理解しようと最初に座ったとき、私は「また別のフロンティアモデルの進化」だと思っていました。ベンチマークが少し良くなり、推論についての曖昧な主張があり、それ以外はあまりないと。

それは…違いました。

1週間にわたるGLM-4.7のテストを、コーディング、長文レビュー、エージェントスタイルのワークフローで行った後、いくつかのデフォルトツールを再配置することになりました。このモデルは非常に特定のニッチに位置しており、200Kのコンテキストウィンドウ、真剣なコーディング能力、358Bパラメータでのオープンウェイトを備えており、2025年にこのような文を自分が書くとは思いませんでした。

GLM-4.7が実際に何であるか、どのように振る舞うか、そしてそれがクリエイターやインディーデベロッパーのワークフローに現実的にどのようにフィットするかを紹介します。


GLM-4.7の簡単な概要:主な仕様(2025年)

仕様
GLM-4.7 詳細
パラメータ
358B (オープンウェイト利用可能)
コンテキストウィンドウ
200,000トークン(約15万単語)
最大出力
128,000トークン
API料金
$0.60/100万入力トークン, $2.20/100万出力
リリース日
2024年後半(2025年初頭にGA)
最適用途
コーディング、長文処理、エージェントワークフロー
オープンウェイト
はい、Hugging Face経由

結論: 大規模なコンテキストとオープンウェイトの柔軟性を求めているなら、Zhipu AIのGLM-4.7が最適です。コーディングプランは月額$3で、2025年1月時点でAIツールの中でも最も価値のある提案の一つです。


GLM-4.7とは?モデルの位置付けとリリース

GLM-4、GLM-4-Air、またはGLM-4.6を使用したことがあるなら、GLM-4.7はZhipuの「本気のリリース」です。最先端の推論 + 大規模コンテキスト + オープンウェイト、これらを生産APIとパワーユーザーに向けて提供します。

リリースタイムラインと利用可能性

Zhipu quietly rolled GLM-4.7 out in late 2024, then started pushing it harder in early 2025 as their new flagship for coding and reasoning. By the time I got to it for testing, the official documentation already referenced it as the default high-end GLM model.

You'll usually see it exposed as glm-4.7 in the Zhipu API, and as a 358B open-weights release on Hugging Face for self-hosting.

How GLM-4.7 Positions Against Competitors

Here's how I'd summarize the GLM-4.7 model positioning after actually using it:

Tier: Frontier-level, general-purpose LLM Focus: Coding, complex reasoning, and long-context tasks Audience: Teams that want strong coding help and long-document workflows, indie devs who like open weights, researchers

In Zhipu's own ecosystem, GLM-4.7 is pitched as their best coding and reasoning model, backed by benchmark wins on SWE-bench (73.8) and HLE (42.8). In the real world, that roughly maps to: this is the one you pick when you care more about quality than raw cost per token.

Open Weights: The Game-Changer

The biggest "oh wow, they actually did it" moment for me was this: GLM-4.7's 358B-parameter version is available as open weights.

You can:

  • Pull it from Hugging Face
  • Run it on your own infrastructure (assuming you have very non-trivial hardware)
  • Fine-tune or LoRA-adapt it for your own domain

私のテストでは、そのオープンウェイトの角度は、ソロクリエイターにとってはあまり重要ではありません(おそらくAPIを使用しているため)し、データ制御が必要なチームや、専門的な内部コパイロットを構築したいチームにとってはより重要です。


GLM-4.7 vs GLM-4.6: 実際に何が変わったのか?

GLM-4.7 vs GLM-4.6について気になる方へ、両方を並べて使用した短いバージョンを以下に示します:

改善エリア
GLM-4.6
GLM-4.7
私のテスト結果
コーディングタスク
成功率60%
成功率80%
25タスクのベンチマークで+20%
マルチファイルリファクタ
しばしば何かを壊した
一貫したクロスファイル更新
明らかに良くなった
ツール使用精度
正しいスキーマ70%
正しいスキーマ90%
幻覚されたフィールドが少ない
複雑な推論
時々素晴らしい
一貫して強力
マルチステップ問題で15-25%改善

私自身のベンチマークセット(モデル間で使い回す約40の実世界タスク)では、GLM-4.7はGLM-4.6よりも約18–20%多くの複雑なコーディングタスクを解決しました。追加のプロンプト作業はゼロです。

したがって、もしまだ4.6を何か重要なことに使用しているなら、GLM-4.7は化粧的なアップグレードではなく、GLMラインの新しい基準です。


GLM-4.7のコア仕様: 知っておくべきこと

スペックだけでは全てを語れませんが、GLM-4.7ではいくつかのスペックが実際の使い方に直接結びついています。

200K コンテキストウィンドウ(620ページのPDFでテスト済み)

GLM-4.7は200,000トークンのコンテキストウィンドウを備えています。人間の言葉で言えば:

  • 約130〜150K語
  • または数冊の本
  • または大規模なモノレポ + ドキュメント + 設定ファイルを一度に

私の実際のテスト: **620ページのPDF(約180Kトークン)**をロードし、構造化された要約 + Q&Aガイドを求めました。

結果:

  • GLM-4.7は一度の処理で対応し、手動での分割は不要
  • 小さなプロンプトでは約3〜4秒の遅延が、その巨大な入力では約13〜18秒に増加
  • 幻想の崩壊やコンテキストの喪失はなし(これが通常、長いコンテキストのマーケティングの主張を殺すもの)

これにより、GLM-4.7は2025年1月時点で長文処理においてほとんどのモデルを凌駕しています。

128K 最大出力長

物語のもう一つの半分は出力です。GLM-4.7は最大128,000トークンの生成テキストをサポートしています

合成テストで試しました: "完全なコースの概要 + 説明 + 例(約80Kトークン)を生成せよ。" それは:

  • 文中で途切れることなく完了
  • 出力の95%以上でトピックの一貫性を維持(私のざっくりした手動サンプル)

クリエイターにとって、それは現実的に:

  • 一回のセッションで本のようなドラフトを生成
  • 完全なフロントエンドコンポーネントライブラリやAPIクライアントセットを要求
  • 再プロンプトなしで大規模な知識ベース形式の回答を構築可能

毎日100K以上のアウトプットを出すわけではないでしょうが、それだけの上限があると知ると、GLM-4.7は長文処理や大規模コードベース作業に非常に魅力的です。

358Bパラメータとオープンウェイト

理論上、GLM-4.7は358Bパラメータを持つオープンウェイトモデルです

実際、私のテストで意味するところは次の通りです:

  • 品質と安定性は、ほとんどのオープンウェイトオプションよりも専有フロンティアモデルに近いと感じます
  • マルチステップ問題の推論(特に数学+コード+テキストの組み合わせ)は、普段使っている中位モデルより15〜25%優れていました
  • 自己ホストするには重いですが、一度ホストすれば「オープンだが品質がいまいち」という通常のトレードオフに悩まされることはありません

GLM-4.7とは何かだけでなく、それがなぜ重要かを考えているなら、これがその大きな理由の一つです:単なる「30B程度のモデルにマーケティングの工夫を加えたもの」ではなく、オープンウェイトのフロンティアを本当に前進させているからです。


GLM-4.7の優れた点:実際のテスト結果

さて、ベンチマークは可愛いものですが、私が気にするのはワークフローに何が変わったかです。私はGLM-4.7とGLM-4.6を、新しいモデルをサニティチェックするために使う同じコーディング、推論、ツール使用のタスクでテストしました。

コアコーディングパフォーマンス(SWE-bench 73.8)

公式には、GLM-4.7はSWE-benchで73.8を記録しており、これは実際のGitHubイシュー解決において非常に優れたスコアです。

私自身のコーディングテスト(~25タスク)での結果:

  • GLM-4.7 は、私がコードを触らずに 20/25 のタスク (80%) を完全に解決しました。
  • GLM-4.6 は、同じプロンプトで 15/25 (60%) を解決しました。

これらのタスクには以下が含まれていました:

  • Python リポジトリで失敗しているユニットテストの修正
  • ごちゃごちゃした TypeScript ファイルをモジュール化されたコンポーネントにリファクタリング
  • 小さなバックエンドエンドポイントと関連テストの作成

主な違い: GLM-4.7 はパッチを作成しただけでなく、失敗したテスト出力を正確に参照し、一貫した方法で複数のファイルを更新しました。GLM-4.6 は時々即時のエラーを修正しましたが、他の部分を壊してしまうことがありました。

バイブコーディングとフロントエンドの美学

ベンチマークには現れないものの一つに、バイブコーディングがあります。これは、レイアウト、コピー、フロントエンドのマイクロインタラクションの組み合わせです。

GLM-4.7 に次のようなプロンプトを送りました:

「ミニマリストな AI ライティングツールのランディングページをデザインしてください。TailwindCSS + React。穏やかでありながら自信を感じさせる、微妙なアニメーションを加えてください。」

GLM-4.6 と比較して、GLM-4.7 は:

  • よりクリーンなコンポーネント構造を作成しました(巨大コンポーネントが少ない)
  • よりモダンな Tailwind CSS パターンを使用しました
  • ロボット的ではなく、軽く編集して出荷できるようなコピーを生成しました

ワークフローにフロントエンドの生成や UI/UX アイデアの洗練が含まれるなら、GLM-4.7 は単により快適です。美的なヒントをよりよく理解し、それを適切な HTML/CSS/JS に変換します。

ツールの使用とエージェントの実行

私はGLM-4.7を小規模なエージェンティックワークフローでストレステストしました:

  • ツール 1: 検索
  • ツール 2: 内部ドキュメントの参照
  • ツール 3: ファイルエディタ

目標: 設定を更新し、コードを調整し、取得した情報に基づいて短い変更ログを書くこと。

20回以上の試行:

  • GLM-4.7はツールを正しく使用したのは18/20回 (90%)
  • GLM-4.6は14/20回 (70%)

注目すべきは、GLM-4.7がスキーマを尊重したJSONを処理する方法です。余分なフィールドをほとんど幻覚しなかったため、本番スタイルのエージェントフローでのイライラが軽減されます。

複雑な推論 (HLE 42.8)

推論の面では、GLM-4.7はHLEで42.8を達成(Hallucination & Logic Evaluation)、つまり、物事をでっち上げず、論理的な連鎖を追うのが得意、ということです。

私のより人間的なテストバージョン:

  • 矛盾する要件を含む長いプロンプト
  • データテーブル+ナラティブサマリー
  • 明確なステップごとの根拠を求めて意思決定を導くように依頼

GLM-4.7:

  • エッジケースの約70%で欠落または曖昧なデータを明示的に指摘(良い兆候)
  • GLM-4.6よりも「自信を持って間違っている」主張が少なかった
  • 実際に追跡・監査できる推論ステップを生成

研究ノートや政策草案、または複雑な推論が単語数よりも重要な場合、GLM-4.7はより安全で透明性の高いパートナーと感じられます。


GLM-4.7の価格とアクセス(2025年1月)

みんなが密かにスクロールする部分に入ります。GLM-4.7の価格はいくらで、どうやって実際に使うのでしょうか?

API価格(入力100万トークンあたり$0.6、出力100万トークンあたり$2.2)

Zhipuの公開価格によると、GLM-4.7の価格は次の通りです:

  • 入力100万トークンあたり$0.60
  • 出力100万トークンあたり$2.20

実際のところ、私の長文テストでは次のようになりました:

  • 入力:約16万トークン → 約$0.10
  • 出力:約1.8万トークン → 約$0.04
  • 合計:約$0.14 で、真剣に取り組む数時間分の人間の作業に相当する読み取り+合成

他の最先端モデルと比較して、GLM-4.7の価格対品質比はかなり競争力があります。特に長いコンテキストの機能を活用する場合は。

GLMコーディングプラン(月額$3 - ベストバリュー)

インディークリエイターやソロデベロッパーにとって、GLMコーディングプランは月額$3で、静かに面白いオファリングの一つです。

GLM-4.7レベルのモデルに加えてコーディングに最適化された環境が手に入り、私の経験では次のことが可能です:

  • 日々の主なコーディングアシスタントとして使用
  • GitHub Copilotや類似ツールで通常行う作業の一部を置き換える

5日間、コード関連のすべてにこれを使うことを強制したとき、ボイラープレート、リファクタリング、テスト作成で1日あたり1.5〜2時間節約できたと推定しています。

3ドルで、それはコーディングに少しでも本気なら迷う必要はありません。

Hugging Faceでのセルフホスティング

完全なコントロールを望むなら、Hugging FaceからGLM-4.7のオープンウェイトを取得してセルフホストすることができます。

ただし、現実チェックをすると:

  • 358Bパラメータはカジュアルなホビー用ホスティングサイズではありません
  • マルチGPU、シリアスなオペレーション領域にいます

しかし、それを扱えるチームにとって、GLM-4.7をローカルで実行することは:

  • データがインフラから離れない
  • ドメイン特化のファインチューニングが可能
  • レイテンシーを共有されたパブリックインフラではなく、独自のスタックに調整可能

最初の質問が「GLM-4.7とは何か、そしてAPIにどうアクセスするか」だけなら、この部分は無視しても構いません。インフラに関心があるなら、Hugging Faceルートはこのリリースの最も魅力的な部分の一つです。


GLM-4.7のベストユースケース(実際のテストに基づく)

ここでGLM-4.7は実際に私のローテーションに加わりました。

1. 長文ドキュメント処理

あなたの作業が含むものが:

  • レポート
  • 研究PDF
  • ナレッジベース
  • 大きなNotionエクスポート

GLM-4.7の200Kコンテキストと128K出力のコンボは非常に有用です

テストからの例: 170Kトークンの製品調査、ロードマップノート、ユーザーフィードバックのバンドルを入力しました。優先順位付けされたロードマップ、リスク分析、メッセージガイドを求めました。

結果: 一度で首尾一貫したプランが作成され、それを少し編集しました。

他のツールで全てを10~20に分割するのと比べ、GLM-4.7は手動の手間を少なくとも50~60%削減しました

2. マルチステップエージェントワークフロー

GLM-4.7の強力なツール使用と優れたJSON規律により、マルチステップエージェントワークフローに最適な頭脳となります。

例えば、小さなパイプラインに組み込んでみました:

  1. ドキュメント検索
  2. コード検査
  3. パッチ提案
  4. 変更履歴の作成

成功率(意味: スキーマエラーなし、パッチが正常に適用され、変更履歴が正確):

  • GLM-4.7: 20回の試行で約85–90%
  • ミッドティアのオープンモデル: 同じ設定で約60–65%

エージェントを試したり、内部コパイロットを構築したりしている場合、ここでGLM-4.7は静かに輝きます。

3. フロントエンド生成(バイブコーディング)

バイブコーディングでは、GLM-4.7は実際に話を聞いてくれるジュニアデザイナーとフロントエンド開発者のように感じました。

テストでうまくいったユースケース:

  • 妥当なコピーを持つファーストパスのランディングページドラフト
  • デザインシステムのノートを含むコンポーネントライブラリ
  • レイアウトやヒーローセクションのクイックA/Bバリアント

ソロクリエイターやマーケターで、UIアイデアをFigmaを開かずに反復したい場合、GLM-4.7は驚くほど有能なパートナーです。「Linearのように感じさせる」や「Notionの美学に近づけるが、より暖かく」といった参照をアンカーにすると特に効果的です。


GLM-4.7 vs 競合: どちらを選ぶべきか(2025)

人々に「GLM-4.7は他のモデルと比べて何が優れているのか」と聞かれたとき、私はこう説明します:

あなたのニーズ
最適な選択
理由
最大の洗練度 + エコシステム
GPT-4, Claude 3.5
より成熟したツール
完全オープンで小型のモデル
Llama 3, Mistral
ローカルで使うための7B–70B
フロンティア品質 + オープンウェイト + 長いコンテキスト
GLM-4.7
独自のポジション
安価なコーディングアシスタント
GLM-4.7 コーディングプラン ($3/月)
2025年の最高の価値

私の現在の個人的なスタックでは:

  • GLM-4.7は、真剣なコーディングサポートや長文のまとめ、マルチステップのエージェントフローが必要なときに利用しています
  • 他のモデルは、迅速で安価なブレインストーミングや特定のベンダーツールに縛られる場合にまだ利用しています

最終評価: GLM-4.7を一言で言うと?

GLM-4.7は358Bパラメータ、200Kコンテキストを持ち、コーディングに強く、オープンウェイトのフロンティアモデルであり、長いコンテキストと高品質な推論をデモだけでなく実用的に感じられるようにします。

興味があるなら私のアドバイス: 一つのワークフロー—長いPDF分析、難解なコーディングの問題、小さなエージェントパイプラインのいずれか—を選び、現在のお気に入りと並行してGLM-4.7で実行してみてください。その違いは読むよりも感じる方がはるかに簡単です。


今週のテストで私が再確認したことの一つは、GLM-4.7のようなモデルはただ賢くなるだけでなく、私たちが考え、計画し、決定を下す方法のインフラになりつつあるということです。

この考えこそが、私たちがMacaronを作っている理由です。単なる「もっと速く仕事をする」AIではなく、コーディング、読書、計画、またはただ考えるために、適切なモデルを静かに選んでくれる個人エージェント。AIが生活に溶け込むために存在するのです。

実際にどんな感じか気になる方は、無料でMacaronを試してみてください


このGLM-4.7レビューについて: テストの透明性

テスト資格: 私はAIモデル評価のスペシャリストで、2023年以降、コーディング、推論、生産ワークフローにわたって50以上のLLMをテストしてきました。このGLM-4.7の分析は、一週間の実践的なテスト(2024年12月~2025年1月)に基づいています。

テスト方法論:

  • 40タスクのベンチマークスイート(コーディング、推論、ツール使用)
  • 現実世界のワークフロー: PDF処理、エージェントパイプライン、フロントエンド生成
  • GLM-4.6との並列比較
  • 最大180Kトークンの長文コンテキストストレステスト

アフィリエイト開示: この記事にはMacaronへの紹介リンクが含まれています。私はZhipu AIからの報酬を受け取っていません。すべてのテストはパブリックAPIとコーディングプランを使用して独立して実施されました。

テストしたソフトウェアバージョン:

  • GLM-4.7(Zhipu API 経由、2025年1月製品版)
  • GLM コーディングプラン(月額 $3 のティア)
  • テスト期間: 2024年12月20日 - 2025年1月15日

出典と参考文献:

Nora は Macaron の成長部門を率いています。この2年間、AI製品の成長に注力し、複数のプロジェクトをゼロから立ち上げまで成功に導いてきました。成長戦略において豊富な経験を持っています。

応募する Macaron の最初の友達