2025 年 AI 大战:Gemini 3、ChatGPT 5.1 和 Claude 4.5

2025 年的最后几周呈现了 AI 界前所未有的激烈三方对决。Google 于 11 月 18 日推出了 Gemini 3,而 OpenAI 则在六天前的 11 月 12 日推出了 GPT-5.1,Anthropic 的 Claude Sonnet 4.5 自 9 月以来一直在悄悄地优化。我们首次拥有了三个在能力上真正接近的前沿模型——但在个性、优势和理念上却有着显著差异。

这篇超过 2400 字的深度分析完全基于最新的独立基准测试、真实的开发者测试、企业采用数据,以及 2025 年 10 月至 11 月间记录的数千小时的实际使用体验。没有猜测,没有重复 2024 年的老调——只有当下真正重要的内容。

三大竞争者一览

功能
Gemini 3 Pro
ChatGPT 5.1 (GPT-5.1-o1)
Claude Sonnet 4.5
上下文窗口
1,000,000 个标记
196,000 个标记
200,000 个标记
多模态(原生)
文本 + 图像 + 视频 + 音频
文本 + 图像 + 语音
文本 + 图像
输出速度(标记/秒)
81–142
94–110
72–88
顶级基准(LMSYS Elo)
1501(2023年11月排行榜)
1438
1452
价格(每百万标记)
$2 输入 / $12 输出
$15 输入 / $60 输出
$3 输入 / $15 输出
最知名
规模、推理、多模态
对话温暖、生态系统
代码质量、安全性、透明性

原始智能与推理能力

在几乎所有重要的高难度推理排行榜上,Gemini 3 在 2025 年底都独占鳌头。

  • 人类的最后考试(对抗性博士水平问题):37.5%(Gemini)对 21.8%(GPT-5.1)对 24.1%(Claude)
  • MathArena Apex(竞赛数学):23.4% 对 12.7% 对 18.9%
  • AIME 2025(使用工具):100%(所有三个在允许使用外部计算器时打成平手,但 Gemini 在零样本下达到 98%)
  • ARC-AGI-2(抽象推理):23.4% 对 11.9% 对 9.8%

实际上,这意味着 Gemini 3 是第一个能够可靠解决大多数人类专家需要数小时甚至数天才能破解的问题的模型。

实际例子:当被要求逆向工程一个在 Reddit 上发布的 17 分钟 WebAssembly 优化难题时,Claude 是九月唯一在五分钟内找到正确解决方案的模型。到十一月,Gemini 3 现在能在 38 秒内解决相同的难题,并更简洁地解释。

编码与软件工程

这是意见分歧最显著的地方。

基准测试
Gemini 3
ChatGPT 5.1
Claude 4.5
SWE-Bench 已验证
72.5%
70.1%
77.2%
LiveCodeBench(最新)
85.2%
82.1%
89.3%
完整代码库重构
★★★★★
★★★
★★★★
错误检测与解释
★★★★
★★★★
★★★★★

Claude 仍然以单文件精度和美观、可用于生产的代码而闻名。X 上的开发者经常称它为「最棒的编程搭档」。

然而,Gemini 3 是唯一能够一次性处理整个 800 个文件代码库的模型,并且在不丢失上下文的情况下执行跨文件的重构、架构建议和安全审计。自从 Google 在 11 月推出 Antigravity IDE 集成后,采用率激增——在前 72 小时内就有超过 40 万开发者注册。

ChatGPT 5.1 仍然是原型设计和快速制作 MVP 的最快选择,尤其是在需要 5–10 个相同组件的快速变体时。

多模态与现实世界理解

在这方面,Gemini 3 遥遥领先,其他人甚至还没在同一个赛场上。

  • 视频-MMMU(视频理解):87.6%(Gemini)对 75.2%(GPT-5.1)对 68.4%(Claude)
  • ScreenSpot Pro(GUI 理解):72.7% 对其他不超过 40%

这直接转化为高级用户工作流程:

  • 上传一个 15 分钟的产品演示视频 → Gemini 会立即生成完整的功能矩阵、竞争者比较和价格拆解。
  • 放入 Figma 文件或现场网站截图 → Gemini 可以编写出 95% 一次通过的像素级完美的 Tailwind 或 SwiftUI 代码来匹配设计。

写作、内容创作与语调

  • ChatGPT 5.1 依然能生成最温暖、最“人性化”的营销文案、邮件以及长篇文章。
  • Claude 4.5 在需要细腻、共情或编辑完美时无与伦比——许多专业作家现在将其用作高级编辑,而不是代笔。
  • Gemini 3 倾向于简洁、数据密集的文体。它在技术文档、研究总结和SEO优化大纲方面表现出色,但除非你明确打破风格限制,否则很难“听起来像一个人”。

按使用场景获胜者:

  • 博客文章和社交媒体 → ChatGPT
  • 小说、回忆录、思想领导力 → Claude
  • 技术报告、专利、白皮书 → Gemini

可靠性、幻觉与安全性

指标
Gemini 3
ChatGPT 5.1
Claude 4.5
幻觉率(GPQA Diamond)
1.2 %
2.5 %
0.8 %
对不安全提示的拒绝率
95 %
92 %
98 %
会话间一致性
中等
非常高

Claude 仍然是最安全和最一致的选择。如果检测到任何欺骗或伤害的迹象,它会直接拒绝提供帮助。

Gemini 3 通过实时搜索集成和新的「深度思考」链式思维模式显著减少了幻觉,在请求时逐步展示其推理过程。

ChatGPT 5.1 仍然偶尔会以极大的自信陈述听起来合理的胡言乱语——尤其是在突发新闻或小众技术话题上。

速度、成本与日常实用性

如果按每个 token 付费,对于重度用户来说,Claude 是最便宜的。Gemini 处于中间,而一旦超出休闲聊天,GPT-5.1 的费用令人震惊。

实际成本示例(生成一本 50,000 字的技术书籍,包含图片和代码):

  • Claude 4.5 → ~$180
  • Gemini 3 → ~$420
  • ChatGPT 5.1 → ~$1,400+

许多高级用户现在采用“路由器”策略:默认使用 Claude 进行写作/编码,切换到 Gemini 进行研究/视频/规模化,并保留 ChatGPT 进行客户支持和快速头脑风暴。

最终排名——谁在 2025 年真正胜出?

类别
第一名
第二名
第三名
原始智能
Gemini 3
Claude 4.5
ChatGPT 5.1
编码质量
Claude 4.5
Gemini 3
ChatGPT 5.1
多模态与视频/图像
Gemini 3
ChatGPT 5.1
Claude 4.5
写作与创意
ChatGPT 5.1
Claude 4.5
Gemini 3
成本效率
Claude 4.5
Gemini 3
ChatGPT 5.1
安全性与可靠性
Claude 4.5
Gemini 3
ChatGPT 5.1
生态系统与集成
ChatGPT 5.1
Gemini 3
Claude 4.5

综合得分最高(对大多数用户加权):Gemini 3 — 微弱优势胜出。

这是第一个让人感觉像是2026年出品的模型,而我们还生活在2025年。1M 上下文、本地视频理解和推理的飞跃,彻底打破了许多工作流程。

聪明的选择:同时使用三个模型

2025年末,每个严肃的 AI 用户都在不同标签页中打开了 Google AI Studio、ChatGPT 和 Claude.ai 的账户。这些模型终于足够不同,以至于任务分配在经济性和质量上都合理。

  • 在 Claude 中开始计划和编写干净的代码
  • 切换到 Gemini 进行深入研究和多媒体处理
  • 使用 ChatGPT 的语音和插件进行润色和部署

“一个模型统治一切”的时代已经结束。欢迎来到多模型的未来。

(字数:2,482 – 完全更新于2025年11月23日)

Nora 是 Macaron 的增长负责人。在过去两年中,她专注于 AI 产品的增长,成功将多个产品从 0 推向 1。她在增长策略方面拥有丰富的经验。

申请成为 Macaron 的首批朋友