最初にGLM-4.7対DeepSeekのワークフローをコーディングのために立ち上げたとき、いつものように少し違うロゴで、ほぼ同じ体験を期待していました。しかし、画面上には2つの非常に異なる個性が現れました。

GLM-4.7は、説明が長いがほとんどプロダクションを壊さないベテランエンジニアのように感じました。一方、DeepSeekは速さを追求するインターンのように振る舞い、速く安く成果を出すが、時々エッジケースを忘れることもあります。どちらも中国のオープンウェイトモデルで、コーディングが可能とされていますが、どちらも今や西洋の開発者やインディークリエイターのワークフローに入り込んでいます。

1週間かけて、実際のタスクを彼らに投げかけ、バグ修正、多言語コードコメント、APIラッパー、長コンテキストのリファクタリングを行い、GLM-4.7対DeepSeekが実際の使用でどのように比較されるかを確認しました。

オープンウェイトコーディングモデル対決

2つの中国のオープンウェイトモデル

舞台を整えましょう。

このGLM-4.7対DeepSeekの比較では、以下をテストしました:

  • GLM-4.7 (358Bデンス、オープンウェイト、API + ローカル量子化実行)
  • DeepSeek V3.2 (Mixture-of-Experts、スパース、コミュニティバックエンドを介したオープンウェイト)

どちらも以下のように位置付けられています:

  • コーディングと推論に強い
  • ベンチマークで多くのプロプライエタリモデルに匹敵またはそれ以上
  • セルフホスティングや地域展開に適している(特にアジアで)

私のテストでは、実際にインディービルダーが使うコーディングワークフローに注目しました:

  • 小さなFlask + Reactアプリの実際のバグ修正
  • 混乱したJSONからのTypeScript型の生成
  • 迅速にデプロイ可能なスクリプトの作成(Python、JS)
  • 長いコンテキストでのリファクタリング(混合コードとドキュメントの40〜80Kトークン)

世界中の開発者にとっての重要性

これら二つの興味深い点は、パフォーマンスだけでなく、誰のために最適化されているかです。

  • GLM-4.7は、堅牢性と長文の推論に調整されているように感じます。大規模なリファクタリング、長い技術文書、構造化されたコード解説を考えてみてください。
  • DeepSeek V3.2は、スループットとコストに調整されているように感じます。AIコーディングエージェント、バッチコード生成、または高ボリュームのAPI使用に最適です。

あなたがソロデベロッパー、インディーSaaSファウンダー、またはツールに興味を持つコンテンツパーソンであれば、GLM-4.7とDeepSeekの選択は、安定性とコスト・スピードのバランスの間のトレードオフとなり、ベンチマークや実際の運用を見ればすぐにそれが分かります。

ベンチマーク比較

SWE-bench Verified

I don't have a full SWE-bench lab in my living room (yet), but I did a small replication-style test on 20 GitHub issues:

  • 10 backend (Python, Flask, Django-style)
  • 10 frontend (React + TS)

Success = patch applied, tests pass, behavior matches description.

In my mini SWE-like run:

  • GLM-4.7 solved 13/20 issues (65%)
  • DeepSeek solved 10/20 issues (50%)

Not a scientific SWE-bench-verified score, but directionally:

  • GLM-4.7 is better at reading long issue threads and inferring the real root cause.
  • DeepSeek is more likely to give plausible but slightly off fixes, especially on multi-file changes.

If your coding workflow leans heavily on "read this long GitHub issue, understand the context, and patch safely," GLM-4.7 clearly pulled ahead in my tests.

Multilingual coding performance

I also tested multilingual prompts:

  • 問題は中国語で説明され、コードはPythonで書かれています
  • 問題は英語で記述され、既存のコメントは日本語で書かれています
  • 変数名のヒントはスペイン語です

大まかな結果パターン:

  • GLM-4.7は説明と変数のヒントが異なる言語であった場合に、よりクリーンで一貫性のある命名を行いました。
  • DeepSeekは、最初のプロンプトの言語に「ロックイン」され、後の他言語の指示を部分的に無視することがありました。

多言語のコーディングタスクでは、このように評価します:

  • GLM-4.7: 混在言語の指示に対するフォローで約9/10
  • DeepSeek: 約7/10、依然として良いですが、プロンプト中に言語が切り替わるとやや脆弱です。

数学と推論能力

数学中心のコーディングタスク(動的価格設定ロジック、アルゴリズムの複雑さの説明、小さなDP問題)について、両モデルに30の問題を投げてみました:

  • 純粋な数学 10問
  • コード内数学(Python) 10問
  • 推論 + コード(例:「説明してからダイクストラを実行」) 10問

結果のスナップショット:

  • GLM-4.7: 約83%が完全に正解(25/30)
  • DeepSeek: 約70%が完全に正解(21/30)

違いは単なる正確さだけではありませんでした:

  • GLM-4.7は中間の推論がより明確で、コードがその推論にほとんど一致していました。
  • DeepSeekは時折正しい推論をしていても、特にオフ・バイ・ワンや境界条件周りでコードが少し間違っていました。

アルゴリズム中心の作業や数学のエラーが痛手となるデータタスクを行う場合、GLM-4.7の方が安全な感じがしました。

Architecture Deep Dive

GLM-4.7: 358B dense model

GLM-4.7 is a fully dense ~358B parameter model. In simple terms: every token passes through the whole network. No experts, no routing.

What this typically means in practice:

  • More predictable behavior across task types
  • Heavier compute footprint per token
  • Often smoother long-context reasoning because all layers see everything

In my runs, GLM-4.7 felt "heavy but thoughtful." Slightly slower, but noticeably more stable when the prompt was messy or over-explained (which, let's be honest, is how real prompts look).

DeepSeek V3.2: MoE with sparse attention

DeepSeek V3.2 uses a Mixture-of-Experts (MoE) design with sparse activation:

  • Only a subset of "experts" activate per token
  • Lower compute cost per token
  • Potentially more capacity overall for the same hardware budget

In practice, this gives DeepSeek its speed and cost advantage but also introduces some quirks:

  • Occasionally "snaps" to a certain style or pattern
  • Rare, but I saw inconsistent behavior on nearly identical prompts

You definitely feel the MoE character: it's fast, and sometimes brilliantly so, but a bit more "personality-driven" than a big dense model.

Implications for inference and deployment

The GLM-4.7 vs DeepSeek architectural difference matters if you:

  • Run your own GPU stack
  • Care about latency under load
  • Need predictable behavior across a team

Rules of thumb from my tests:

  • For API-only use, DeepSeek usually wins on cost/speed, GLM-4.7 wins on stability.
  • For self-hosting, DeepSeek is viable on fewer high-end cards (MoE), while GLM-4.7's dense nature wants more raw GPU and memory.

If you're an indie builder deploying to a single A100 or a cluster of consumer GPUs, DeepSeek will generally be easier to scale cheaply.

Speed and Latency

Time to first token

I measured time to first token (TTFT) over 50 requests each, via similar-quality hosted endpoints.

Average TTFT on a 2K-token prompt:

  • GLM-4.7: ~1.3–1.5 seconds
  • DeepSeek: ~0.7–0.9 seconds

So DeepSeek starts talking roughly 40–50% faster. When you're in a tight feedback loop ("fix this function… no, not like that"), it feels noticeably snappier.

Tokens per second

For throughput, I tested 1K–2K completion lengths.

Average tokens/sec:

  • GLM-4.7: 25–30 tokens/sec
  • DeepSeek: 45–55 tokens/sec

これは、私の環境でDeepSeekを使用した場合、約60〜80%速い生成速度です。

AIコーディングアシスタントを構築していて、提案をストリーミングするなら、DeepSeekの速度は本物であり、マーケティングではありません。

長いコンテキストでのパフォーマンス

しかし、速度だけが全てではありません。

40K以上のトークンコンテキスト(大規模なリポジトリ、長い設計文書)では、以下のような結果が見られました:

  • GLM-4.7は「コンテキストの幻覚」が少なく、より長く一貫性を保ちました。
  • DeepSeekは高速を維持しましたが、時々コンテキストの古い部分を誤読したり、最後の数画面のコードを過重視したりしました。

大規模な80Kトークンのリファクタープロンプトでは:

  • GLM-4.7: 3つの小さな問題がありましたが、ファイルレベルの制約に正しく従いました。
  • DeepSeek: 6つの問題があり、触らないように明示的に指示したファイルを編集しました。

したがって、大規模なコンテキストでのGLM-4.7対DeepSeekのシナリオでは、GLM-4.7は遅いですが、巨大なコードベースを扱うときにはより信頼できます。

コスト分析

API料金比較

正確な数字はプロバイダーによって異なりますが、私が一貫して見たパターンは次のとおりです:

  • DeepSeekスタイルのMoEエンドポイントは、GLM-4.7クラスの密エンドポイントよりも通常30〜60%安価でした(1Mトークンあたり)。
  • あるホスティングセットアップでは、DeepSeekの生成は1M出力トークンあたり約$0.60で、一方GLM-4.7は約$1.10でした。

次の場合:

  • ボリュームが少ないサイドプロジェクト → 両方とも手頃な価格です
  • 毎日何百万ものトークンを処理するSaaS → DeepSeekの優位性は非常に速く増加します

自己ホストのGPU要件

私自身の実験とドキュメントからの大まかな展開図:

  • GLM-4.7
    • フル精度: 高メモリGPUが複数必要(個人には向かない)
    • 4ビット/8ビット量子化: 依然として重い。スムーズな高並行性を考えると、2〜4 × 80GBのGPUが必要
  • DeepSeek V3.2
    • MoEが助ける: トークンあたりのアクティブパラメータが少ない
    • 中規模用途には2 × 40〜80GBカードでの合理的なデプロイが可能

家で一台の3090/4090で趣味としてデプロイしたいだけなら、どちらも大幅な量子化と妥協が必要だが、DeepSeekの方が現実的な選択です。

100万トークンあたりの効果的なコスト

ハードウェア+電力+遅延を考慮すると、私の大まかな効果的コスト比率は以下の通りでした:

  • DeepSeek: 基準コスト = 1.0倍
  • GLM-4.7: 100万トークンあたり約1.4〜1.8倍の効果的コスト

したがって、純粋なGLM-4.7対DeepSeekのコストの観点から:

  • DeepSeekは大量APIワークロード、エージェント、大量文書生成に有利です。
  • GLM-4.7は、トークンの価格よりも各呼び出しが「重要」である場合、例: クリティカルなリファクタリング、顧客向けコード、複雑な推論ジョブに適しています。

このコストと品質のトレードオフは、Macaronのプロダクションでまさに直面しているものです。 何百万もの推論を行う際に、単一の「最良」モデルを選ぶことはほとんど意味がありません。

私たちは、速度、コスト、故障耐性に基づいて異なるタスクを異なるモデルにルーティングするので、ユーザーはMoE対デンスや100万トークンあたりのセントを考える必要はありません。彼らはただ、速くて信頼できるミニアプリを手に入れるだけです。

このようなモデルルーティングが実際の製品でどのように見えるか気になるなら、Macaron が具体的な例です。

実践におけるコード品質

Python、JavaScript、およびTypeScriptの出力

日常のインディーデベロップメント作業では、これが実際に重要な部分です。

約50のコーディングタスクにおいて:

  • Python: GLM-4.7は、よりイディオマティックなコードを生成する傾向がありました(コンテキストマネージャー、ロギング、型付けの良い利用)。DeepSeekも良かったですが、より「チュートリアル風」でした。
  • JavaScript: 非常に接近しています。DeepSeekは時折、少し古いパターン(var風の考え方)を使用しました。GLM-4.7はモダンでしたが冗長でした。
  • TypeScript: GLM-4.7は型推論とジェネリクスで明らかに優れていました。DeepSeekは時々、エッジケースのヌル許容性やオプションフィールドを無視することがありました。

スタックがTSに重きを置いている場合、GLM-4.7を推奨します。

エラーハンドリングパターン

ここでGLM-4.7は静かに私を感心させました。

  • GLM-4.7:
    • より構造化されたエラーハンドリングを頻繁に使用しました(カスタムエラークラス、型付きガード)
    • 過剰なログスパムを避けつつ、適切なログメッセージを追加しました
  • DeepSeek:
    • 動作するハッピーパスソリューションを迅速に出荷
    • 時には指定不足のエラーブランチや一般的なcatch (e) パターン

生産的なワークフローでは、これは重要です。文脈なしに一般的な例外をデバッグするのは苦痛です:GLM-4.7はその一部を回避してくれました。

ドキュメンテーション生成

ドキュメント文字列、READMEのスニペット、およびインラインコメントについて:

  • GLM-4.7 は、より人間が読みやすい説明を、より良い構造(セクション、箇条書き、例)で書きました。
  • DeepSeek は、より短くコンパクトな説明を生成しました。これは、迅速な内部文書には良いですが、チュートリアルやユーザー向けガイドにはあまり向いていません。

即興で作ったドキュメント生成ベンチマーク(10の関数、両モデルに完全なドックストリングと使用メモを依頼):

  • GLM-4.7: 軽く編集して約80%のコンテンツを保持しました
  • DeepSeek: 明確さとトーンのために、より多くの書き直しが必要で約60%を保持しました

コードに関連するコンテンツや開発者向けドキュメントを作成する際、GLM-4.7の出力は「編集で公開可能」に近く、DeepSeekは「大幅に書き直す必要があるドラフト」のように感じられました。

GLM-4.7を選ぶとき

非常に長い出力が必要な場合 (128K)

ワークフローが長いコンテキストに依存する場合、128Kトークンのコード、ノート、仕様、ログでは、GLM-4.7がより安全な選択肢です。

混合コンテキストテストでは:

  • GLM-4.7は、60–90Kトークンのプロンプトでファイルの境界、制約、スタイルルールを尊重しました。
  • DeepSeekは高速でしたが、プロンプトが長くなるにつれてコンテキストの誤りが増えました。

以下に向いています:

  • プロジェクト全体のリファクタリング
  • 大規模な設計文書のレビュー
  • コードからの大量ドキュメント生成

GLM-4.7は、キーボードに触れる前にすべてを読む注意深いシニアデベロッパーのように振る舞いました。

強力なフロントエンドとUI感覚

これは驚きでしたが、フロントエンド/UIのタスクでは、GLM-4.7がより「センスが良い」と感じることが多かったです。

例:

  • 理にかなったプロップ名を持つReactコンポーネント
  • UIロジックの存在理由を説明するインラインコメントの改善
  • 簡単なスタイルガイドに基づく一貫したCSS/ユーティリティクラスのパターン

DeepSeekも同じコンポーネントを構築できるが、GLM-4.7はより生産準備が整ったフロントエンドリポジトリにそのまま投入するのに安心できるコードを頻繁に生成しました。

したがって、主な使用目的が以下の場合:

  • UIが重視されるアプリ
  • デザインシステムに対応したコンポーネント
  • フロントエンド用のドキュメントと例

GLM-4.7は、GLM-4.7とDeepSeekの選択肢の中でより良いデフォルトである可能性が高いです。

DeepSeekを選ぶとき

極端なコスト最適化

主なKPIが「ドルあたりのトークン数」である場合、DeepSeekがあなたのために作られています。

一般的なケースで私が最初にDeepSeekを選ぶ場合:

  • ユーザーセッションごとに数百の小さな呼び出しを行うAIコーディングエージェント
  • 大量のコード生成(多言語対応のSDK、ボイラープレート、移行スクリプト)
  • 多少の小さな間違いが許容される内部ツール

約500万トークンにおける私の並列ログでは:

  • DeepSeekは同様の作業負荷に対してGLM-4.7より約45%コストが低かった。
  • エラーレートは高かったが、非クリティカルパスでは許容範囲内でした。

可能な限り速い推論速度

アプリがレイテンシーに依存する場合、リアルタイムの提案パネルや対話型アシスタントUIを想定すると、DeepSeekの速度は無視できません。

「入力しながらのオートコンプリート」の現実的な設定では:

  • DeepSeek は、一度ウォームアップするとほぼ「瞬時」に感じました。
  • GLM-4.7 は使用可能でしたが、特に最初のリクエストで明らかに遅かったです。

私の GLM-4.7 と DeepSeek の選び方の目安:

  • GLM-4.7 を選ぶ場合: 正確さ、長いコンテキスト、コード品質がコストよりも重要な場合。
  • DeepSeek を選ぶ場合: 大規模なスケーリングを行いたい、最大スループットを求める、そして少しの手間を許容できる場合。

まだ迷っているなら、探索と大量生成にはまず DeepSeek を使用し、システムの形が安定したら重要な部分(プロダクションのリファクタリングや顧客向けロジック)を GLM-4.7 に切り替えてください。

これらのモデルを使用する際は常に: すべてをログに記録し、すべてを比較し、AIが自信を持っているからといってテストを省略しないでください。

Nora は Macaron の成長部門を率いています。この2年間、AI製品の成長に注力し、複数のプロジェクトをゼロから立ち上げまで成功に導いてきました。成長戦略において豊富な経験を持っています。

応募する Macaron の最初の友達