从 Grok 1 到 Grok 5:xAI 的 AI 基础设施和模型演变

作者:Boxu Li

xAI 的 Grok 已经从 X 上的尖端聊天机器人迅速发展为前沿规模的 AI 平台。本次深入探讨将展示 Grok-1、2、3 和 4 的基础设施和模型能力如何演进,以及我们对即将到来的 Grok-5 的预期。

什么是 xAI Grok?快速回顾

Grok 是由 Elon Musk 的 AI 创业公司 xAI 开发的旗舰大型语言模型(LLM)系列。它于 2023 年底作为面向消费者的聊天机器人在 X(前身为 Twitter)上推出,具有一点叛逆而机智的个性。Grok 立即脱颖而出的原因在于其实时意识——与大多数训练数据陈旧的 LLM 不同,Grok 与 X 的实时动态紧密集成,并可以即时进行网页搜索[1]。实际上,Grok 是 LLM 和实时数据代理的混合体:它可以从 X 帖子和网络中提取最新信息,并在回复中结合引用这些事实[1]。这个“银河系漫游指南”风格的机器人几乎乐于回答任何问题(甚至是其他 AI 可能拒绝的“敏感”问题),这吸引了注意——也因其不加过滤的方法引发了一些争议。

在幕后,Grok不是单一模型,而是一个模型和工具的家族。早期,xAI开源了基础的Grok-1模型(一个庞大的3140亿参数网络),采用Apache-2.0许可证,表明了一种不同寻常的开放策略。从那时起,xAI快速迭代:Grok-1.5增加了长上下文和多模态视觉,Grok-2提高了速度和多语言支持,Grok-3引入了显式推理模式,而**Grok-4(及4 “Heavy”)**则通过工具使用和合作子代理推动进入多代理领域。现在可以通过X上的Grok聊天机器人、xAI API,甚至通过云平台访问Grok(Oracle Cloud将Grok-4列为一流模型提供[2][3])。总之,Grok已经从一个单一的前沿聊天机器人演变为一个完整的AI 堆栈——一个以求真、实时集成和高强度推理为中心的堆栈。

Grok基础设施揭秘:Colossus超级计算机和JAX+Rust堆栈

在Grok健谈的前端背后,是世界上最强大的AI超级计算机之一。Colossus——xAI在田纳西州孟菲斯的GPU超级集群——是为了在前沿规模上训练和运行Grok而建造的。2024年年中宣布,马斯克将其称为“孟菲斯超级集群”,Colossus的设计目标是通过单一高带宽RDMA网络连接多达100,000个NVIDIA H100 GPU。用马斯克的话来说,“这是世界上最强大的AI训练集群!” 容纳Colossus的数据中心是一个150兆瓦的设施,仅用了122天就建成——如此迅速的成就引起了媒体关注,甚至还有一个ServeTheHome的视频游览。

硬件设计: Colossus 的基本单元是一个 Supermicro 液冷机架,其中包含 8 台服务器,每台服务器配备 8× NVIDIA H100 GPU(每个机架 64 个 GPU)。每个机架还配备冷却液分配单元(CDU)和高速网络交换机,并以 8 个机架(512 个 GPU)为一组形成迷你集群。这种同质的模块化设计使得扩展和管理更加容易。所有组件——GPU、双路 Xeon CPU、PCIe 交换机——都采用液冷,鉴于 H100 的热输出和 150MW 的设施电力预算,这是必不可少的。网络使用 NVIDIA 的 Spectrum-X 以太网结构和 BlueField-3 DPU,实现每节点超过 400 Gbps 的速度,使机架间的 GPU 能以极高速度通信[4][5]。简而言之,xAI 建造 Colossus 是为了最大限度地减少瓶颈:快速互联、冷却以维持高利用率,以及冗余的电力/冷却,以确保单点故障不会中断训练。

规模和混合计算:截至2024年中,xAI上线了约32,000台H100,并计划在年底前扩展到10万台。他们还宣布了一个扩展计划(“Colossus 2”),将在2025年配备300,000台下一代GPU(NVIDIA B200s)[6]。即便在建立自己的数据中心时,xAI也没有只依赖于一个计算来源:他们在Oracle云上租用了大约16,000台H100 GPU,还使用了AWS和备用的X(Twitter)数据中心[7]。这种混合策略使xAI能够灵活地立即开始训练大型模型(使用云GPU),然后逐步将工作负载迁移到他们内部的超级计算机上。据报道,到2025年底,Colossus将包括150,000台H100 GPU(加上数万台更新的H200 GPU),为xAI准备Grok-4及更高版本。

软件栈: 为了利用这些硬件,xAI 构建了一个以 JAX(Google 的高性能数组和机器学习库)为核心的定制分布式训练框架,使用基于 Rust 的编排层在 Kubernetes 上运行[8]。正如 xAI 所说,“大型语言模型(LLM)的训练就像一列雷鸣般前进的货运列车;如果一节车厢出轨,整列火车都会被拖出轨道。” 在数千个 GPU 上保持高可靠性和模型浮点运算能力(MFU)是首要任务。xAI 的训练编排器可以自动检测并剔除任何开始出问题的节点(例如硬件错误),并在需要时无缝重启任务的部分[9]。数百GB的模型状态的检查点以容错的方式完成,这样单个服务器故障不会抹去数天的进展。基本上,xAI 将基础设施视为一级问题,投资于工具以在硬件故障或尝试新模型架构时保持1万多个GPU的忙碌。这个 JAX + Rust + Kubernetes 栈使得 xAI 能够在 Colossus 集群上扩展任务,并快速迭代模型变体(正如 Grok 版本迅速推出所证明的那样)。这与 Google 的 TPU 基础设施或 OpenAI 的软件栈有相似的哲学,但 xAI 将其定制为混合 GPU 集群,并强调故障弹性。

Grok模型演变:从1到4的架构和功能

Grok-1:一个拥有3140亿参数的专家混合基础模型

第一个完整版本,Grok-1,于2023年末推出,是一个在大约四个月内开发的前沿级LLM。Grok-1的架构是一个专家混合(MoE)Transformer——本质上是一个稀疏模型,其中不同的“专家”(子网络)处理不同的token。从规模上看,Grok-1非常庞大:总共有3140亿参数,包括64个Transformer层和48个注意力头。它使用了131k个token的词汇表,嵌入大小为6,144,公开版本的上下文窗口为8,192个token。然而,每个token实际上只激活了这3140亿权重中的一小部分。MoE设计意味着每个token通过一个门控网络选择出一个大型池中的2个专家(前馈模块),因此对于给定的输入token,大约1/8的参数可能被使用。这使得Grok-1在实现3000亿+模型的表示能力的同时,每个token仅计算相当于~790亿参数——在训练和推理中获得了重大的效率提升。

LLM 中 Mixture-of-Experts 层的示意图。MoE 模型如 Grok-1,不是对每个输入激活每个神经元,而是使用门控网络通过一小部分专家网络(稀疏激活)来路由每个 token 的数据,然后结合结果。这允许在不线性增长计算成本的情况下拥有巨大的总参数量。

Grok-1 的 MoE 方法通过其性能得到了验证。发布时,xAI 报告 Grok-1 在 MMLU 知识基准测试中得分 73%,在 HumanEval 编码测试中得分 63.2%,超越了像 OpenAI 的 GPT-3.5 和 Inflection-1 这样的模型,仅次于 2023 年末的 GPT-4。独立测试证实了 Grok-1 在其计算类别中具有强大的数学和推理能力。例如,Grok-1 能以 C 等级(59%)通过匈牙利高中数学考试,与 Anthropic 的 Claude 2(55%)相匹敌,并且在相同条件下不远落后于 GPT-4(68%)。这值得注意,因为 Grok-1 在总训练计算量少于 GPT-4 的情况下取得了这样的结果,展示了 xAI 的训练效率。

然而,Grok-1 也非常「资源密集」。运行完整的 314B 模型以 16 位精度推理时,估计需要「~640 GB 的 VRAM」。这种规模意味着没有单个服务器可以托管它;你需要多 GPU 分区来提供模型服务,甚至需要更多 GPU(通过数据并行)来训练它。这让我们明白了为什么 xAI 构建了 Colossus,以及为什么高速互联是关键——在 Grok-1 的规模下,GPU 的内存和带宽往往是限制因素。实际上,AMD 的工程师在一台 MI300X 8-GPU 服务器上展示了 Grok-1(MI300X 每个 GPU 有 192GB,这是为数不多能够处理 Grok-1 内存需求的设备之一)。简而言之,Grok-1 证明了 xAI 能够从头训练一个 GPT-3.5 级别的模型,但它也推动了硬件的极限,需要上面描述的庞大集群和自定义训练平台。

Grok-1.5:长上下文和多模态视觉

xAI 并没有止步于基础的 Grok-1。2024 年 3 月,他们宣布了 Grok-1.5,带来了两项重大升级:128,000 令牌的上下文窗口和数学与编码能力的显著提升。Grok-1.5 的架构和参数数量与 Grok-1 大致相同(xAI 并未披露新的参数数据,暗示这是对现有模型的优化),但它可以处理长达 16 倍的输入,并利用“可扩展监督”技术提升推理能力。实现 128k 的上下文并非易事——这可能涉及新的位置编码方案和训练课程,以确保模型不会忘记如何处理短提示。结果令人印象深刻:Grok-1.5 在内部测试中展示了在整个 128k 窗口内完美的记忆能力,并且在“海底捞针”任务中表现出色,能够在长文档中找到隐藏的相关片段。

关键是,Grok-1.5 的推理和解决问题能力提升了一个层次。在具有挑战性的 MATH 基准测试(比赛级数学问题)中,Grok-1.5 的得分是 50.6%,是 Grok-1 的 23.9% 的两倍多。在 GSM8K(一个数学文字题集)上,它达到 90%(从 Grok-1 的 ~63% 提升)。在代码生成方面,Grok-1.5 在 HumanEval 上达到 74.1%,从 63% 提升。这些进步使 Grok 更接近 GPT-4 在定量任务上的水平——事实上,Grok-1.5 据称在许多基准测试中匹敌或超越了 Anthropic 的 Claude 2 和 Google 的 PaLM 2。为了实现这一目标,xAI 使用了链式思维提示等技术,并可能在代码和数学数据上进行了更多微调。Grok-1.5 还在训练回路中引入了一个 「AI 导师」 模型——本质上是人类和工具辅助的审阅者,他们生成高质量的推理示范以微调 Grok 的逐步问题解决能力[11]。这是 xAI 专注于工具辅助监督的开始,我们将在后续版本中看到更多。

2024 年 4 月,xAI 进一步推动了技术极限,推出了 Grok-1.5V,这是一种多模态扩展,可以处理图像以及文本。Grok-1.5V(“V” 代表视觉)在长上下文、数学能力强的 Grok-1.5 的基础上赋予了“视觉”:它经过训练,可以解读照片、图表、截图以及其他视觉输入,结合文本进行分析。该模型立即证明了其价值,在名为 RealWorldQA 的新基准测试中 超越了 OpenAI 的 GPT-4V 及其他具备视觉能力的同行,该测试评估了真实图像中的空间理解能力。Grok-1.5V 在 RealWorldQA 中取得了 68.7% 的成绩,相比之下,GPT-4V 的成绩为 60.5%,谷歌 Gemini 为 61.4%。实际上,Grok-1.5V 可以回答关于照片中发生的事情的问题,分析图表或文档,然后以其在文本中具备的长上下文能力进行推理。这一多模态的飞跃展示了 xAI 致力于开发不仅仅是文本预测器而是更全面的推理引擎,能够理解复杂的真实世界数据。这也为 Grok 用于分析医疗图像或调试用户界面截图等应用奠定了基础,正如马斯克暗示的未来增长领域。

Grok-2:扩大规模并实现实时化

Grok-2 于 2024 年底推出,标志着从“专有预览”向更广泛可用的模型过渡。xAI 在此时开放了对 X 上所有用户的 Grok 访问,表明了对 Grok-2 稳健性的信心[12][13]。在技术上,Grok-2 的架构并没有发生重大变化——它仍然是基于 MoE 的大型语言模型,具有大(可能为 128k)上下文。然而,xAI 在 2024 年下半年花费时间改进了 Grok-2 的速度、多语言能力和工具使用。2024 年 12 月更新的 Grok-2 模型在推理速度上“快 3 倍”,更擅长遵循指令,并在多种语言中表现流利[13][14]。这表明他们优化了 MoE 路由,并可能对模型的部分进行了蒸馏以提高效率。xAI 还推出了一个更小的 Grok-2-mini 变体,以服务于成本敏感或低功耗的使用场景(可能类似于 OpenAI 的 GPT-3.5 Turbo 与完整的 GPT-4)。

Grok-2 的一个亮点功能是带引用的实时搜索。Grok 现在可以在回答问题时自动进行网页搜索或扫描 X 帖子,并在其输出中提供引用[15]。这有效地将搜索引擎和事实核查器整合到模型的工作流程中。根据 xAI 的说法,Grok-2 与 X 的集成使其能够实时了解突发新闻、热门话题和公共数据,使其在涉及当前事件的查询上具有优势[1]。例如,如果被问及“昨晚”发生的一场体育比赛,Grok-2 可以搜索比分,并引用新闻文章或 X 帖子的结果。这种实时能力成为其独特的卖点——不同于固定训练截止的 GPT-4(后来才加入浏览插件),Grok 天生就连接到实时数据。从工程角度来看,实时搜索功能涉及类似代理的子系统:Grok 的提示可以触发一个内部工具,查询 X 或网络 API,然后将检索到的文本(连同源 URL)附加到 Grok 的上下文中,形成最终答案[1][16]。xAI 向用户或开发者提供了控制,决定 Grok 是否自动搜索、始终搜索或仅依赖内部知识[1][11]

Grok-2 也提高了可访问性和成本效益。到 2024 年 12 月,xAI 使 Grok 聊天机器人对所有 X 用户免费(付费层仅提供更高的速率限制)[13]。他们还推出了 Grok-2 模型的公共 API,价格为每百万输入 tokens 2 美元(这一激进的定价远低于许多竞争对手)[17]。此举不仅将 Grok-2 定位为 X 专属产品,还定位为通用开发者平台。从技术上讲,Grok-2 的训练可能结合了 Grok-1 测试版的数百万用户交互,以及一个大型的校准奖励模型。马斯克的团队提到使用“AI 导师”(人类审阅者)来策划微调数据,并专注于使 Grok 政治中立但仍具幽默感[11][18]。过程中遇到了一些问题——Grok 的未过滤风格导致一些冒犯性输出,xAI 不得不通过更新安全过滤器和“控制” Grok 倾向于在回答中重复马斯克个人推文来解决这些问题[19]。在 Grok-2 的运行结束时,xAI 找到了更好的平衡:Grok 仍然可以表现出锋芒,但由于更严格的**人类反馈强化学习(RLHF)**和系统提示,它不太可能产生不允许的内容或偏见。

Grok-3:推理模式和多步骤问题解决

于2025年初推出,Grok-3 在让模型更透明地思考方面实现了一次飞跃。xAI 将 Grok-3 描述为他们当时“最先进的模型”,突显了其强大的推理能力。在技术层面,Grok-3 的训练计算量相比 Grok-2 提高了 10倍,这可能意味着模型规模更大或只是通过更多数据进行了更长时间的训练。xAI 可能增加了专家或层数,但他们没有披露新的参数数量。相反,重点放在 Grok-3 如何处理推理任务。它引入了特殊的推理模式:一种**“思考”模式,让模型展示其思维链条**(基本上让用户可以在一个单独的面板中查看其逐步推理),以及一种**“大脑模式”用于复杂查询**,为提供更全面的答案分配更多计算资源(或者可能启动多次推理过程)。这些功能符合“让模型大声推理”以增加透明度和准确性的行业趋势。

在基准测试和评估中,Grok-3 大幅缩小了与 GPT-4 的差距。科技媒体报道称,Grok-3 在许多学术和编程基准测试中与 OpenAI 的 GPT-4(原始版本,而非假设的 GPT-4.5)相媲美甚至超越。例如,Grok-3 被认为在 ARC Advanced 和 MMLU 推理测试中取得了与 GPT-4 和 Claude 2 相当的成绩,尤其在数学/编程任务中表现出色,这是 Grok 模型的优势领域。Grok-3 强大的一个早期迹象是:它在 GSM8K 上达到了 90%+(几乎完美解决小学数学问题)和 HumanEval 上达到了 ~75%+,在这些类别中稳居 GPT-4 水准。此外,Grok-3 提升了多语言理解能力,使其在全球竞争中更具竞争力。

从基础设施的角度来看,Grok-3 是 xAI 真正深入工具使用的阶段。该模型可以更灵活地调用外部工具,如计算器、搜索、代码解释器等,系统会将这些结果整合到答案中。本质上,Grok-3 开始模糊大型语言模型和代理框架之间的界限。与其期待一个庞大的模型内部完成所有任务,Grok-3 会将复杂的查询拆分为多个步骤,针对特定步骤使用工具或子程序(例如检索文档、运行 Python 代码、验证证明),然后组合成最终答案。这种方法预示了 Grok-4 Heavy 的到来。它也与 xAI 的研究路线图中提到的形式验证可扩展监督一致——Grok-3 可以在关键情况下使用外部检查器或参考资料来验证其输出的准确性[20][21]。所有这些使 Grok-3 成为一个更值得信赖且更有能力的助手,不仅仅是一个健谈的 GPT-3 替代品,而更像是一个可以引用资料并可靠地解决多步骤问题的 AI 研究员。

Grok-4 和 Grok-4 Heavy:多代理协作与前沿性能

在 2025 年中期,xAI 发布了 Grok-4,称其为*「世界上最智能的模型」。虽然这样的说法需要谨慎对待,但 Grok-4 无疑是 2025 年顶级模型之一。Grok-4 的重大变化在于它不再仅仅是单一模型——尤其是在 Grok-4 Heavy 配置中,它本质上是多个专门模型协同工作*。xAI 将 Grok-4 打造成一个多代理系统:当你提出复杂问题时,Grok-4 可以在内部启动不同的“专家”(代理)来解决问题的各个部分,然后汇总他们的发现。[22][23]。例如,一次 Grok-4 Heavy 会话可能会部署一个代理进行网络搜索,另一个分析电子表格,还有一个编写代码,并由协调代理来统筹这些子任务。这与 OpenAI 的 AutoGPT 或 Anthropic 的「宪法 AI」代理项目的精神相似,但 xAI 将其集成到产品层面——Grok-4 Heavy 就是企业用户可以直接查询的多代理版本的 Grok。

这种设计的结果是,Grok-4 在处理非常复杂、长期任务时表现出色。它可以在数百万个标记中保持一致的线索(xAI 的 API 文档列出了Grok-4.1 Fast,在某些变体中具有 2,000,000 标记上下文窗口),对于大多数实际用途来说,这实际上是无限的。Grok-4 的代理可以并行执行检索和推理,使其在详尽研究或详细计划生成等方面更加快速。在设计用于测试高级推理的评估基准上(如人类最后的考试,一个有 2500 道问题的模拟博士考试),据报道,Grok-4 的得分在 40% 范围内——高于许多同时代的产品,表明其具有很强的零样本推理能力[2][22]。在编码和质量评估基准上,由于其通过多个代理反复检查工作以避免错误的能力,Grok-4 Heavy 被认为优于最强的单模型系统[22][20]

Grok-4 同时将本地工具集成发展成熟。该模型可以自主使用一套 xAI 托管的工具:网页浏览、代码执行、用于检索的向量数据库、图像分析等。当用户查询时,Grok-4(尤其是在“推理”模式下)会决定是否以及何时调用这些工具。所有这些都以完全透明的方式回传给用户——您可能会看到 Grok 说“正在搜索相关论文……”,然后在最终答案中引用这些论文。系统设计使得工具的使用无缝进行,用户无需协调操作;您只需用简单的语言提问,Grok 就会处理其余部分。值得注意的是,xAI 在测试期间不对工具调用收费(他们希望鼓励大量使用工具以提升模型的能力)。

Grok-4 的一个更专业的衍生版本是 grok-code-fast-1,一个专注于代码的模型,以及 Grok 4.1 Fast(推理和非推理),这些版本针对高吞吐量进行了优化,有些情况下甚至免费提供。这显示了 xAI 提供不同大小和速度的 Grok 以满足不同需求的策略——从免费但仍然强大的 4.1 Fast(由于工具使用,幻觉减少)到用于企业分析的高级 Heavy 代理。

在对齐方面,Grok-4 的发布伴随着更强的安全保障(在 Grok-3 事件后,它曾因发表反犹太笑话而陷入短暂的麻烦中[19])。xAI 实施了更严格的过滤器,并强调 Grok 的回应不受马斯克个人观点的影响[19]。他们还引入了一个反馈机制,用户可以对答案进行评分,从而不断进行微调。到 2025 年底,Grok 没有再发生重大公共事件,这表明 RLHF、专业 AI 导师(在敏感领域微调模型的领域专家)和多代理自检的结合效果更好。事实上,xAI 在 2025 年经历了一次转变,倾向于由主题专家来策划训练数据(例如,数学家、律师等审查输出),而不是一般的众包工作者。这可能提高了 Grok-4 在细分领域的事实准确性并减少了偏见。

以下是 2023 年至 2025 年 Grok 模型演变的摘要,重点介绍了关键规格和能力:

表格:xAI Grok 模型的演变(2023–2025)

模型
发布
架构和规模
上下文窗口
显著特性
基准测试 / 性能
Grok-0
2023年中 (内部)
33B 密集变压器 (原型)
4K 代币 (估计)
初步 LLM 原型 (≈LLaMA-2 70B 级别)
~57% GSM8K, ~66% MMLU (5次尝试)
Grok-1
2023年11月
314B MoE (64层, 48头; 每个代币2个专家)
8K 代币
开源 权重; 强大的数学和编程能力
73% MMLU, 63.2% HumanEval; 59% 新数学考试
Grok-1.5
2024年3月
~314B MoE (改进)
128K 代币
长 上下文; 改进的推理和数学能力
50.6% MATH, 90% GSM8K, 74.1% HumanEval
Grok-1.5V
2024年4月
Grok-1.5 + 视觉编码器
128K 代币
多模态 (图像 + 文本理解)
68.7% RealWorldQA (对比 60.5% GPT-4V) – 最佳视觉推理
Grok-2
2024年8月
~314B MoE (更快的推理优化)
128K 代币 (视觉变体32K)
网络 搜索和引用; 多语言; “Aurora” 图像生成器
匹配 GPT-4 Turbo 在许多任务上的表现 (内部测试); 比1.5快3倍[13]
Grok-2.5
2025年8月
(开源 Grok-2.5 变体宣布)
128K+ 代币
权重 将被开放 (马斯克承诺 Grok-2.5 开源)
Grok-3
2025年2月
可能 更大 MoE (相较于2增加10倍训练计算)
131K 代币 (有效长)
“思考” 模式 (展示思维链); 更好的工具使用
~88–90% GSM8K, 接近 GPT-4 在 HHH 基准测试上 (非官方数据)
Grok-4
2025年7月
多代理 系统 (基础 LLM + 工具 + 代理)
256K 代币 (Grok-4.0); 4.1 可达 2M
原生 工具调用; “重”模式可并行运行多个代理
~42% 人类最后考试[2] (最先进); 在复杂任务中表现强
Grok-4.1 Fast
2025年11月
优化 Grok-4 (多模态)
2M 代币
高速, 低成本模型 (免费层); 可用非推理模式
与“重”模式相比略有质量下降, 但在实时查询中表现出色
Grok-5 (传闻)
预计 2026
下一代 架构 (“Project Valis”) 可能超过1T参数 (稀疏) + GNN 组件
数百万 代币 (预期)
“真相模式2.0” 具有事实核查的现实引擎; 更多自主代理; 多模态++
旨在 在各方面与 GPT-5 和 Google Gemini 3 竞争[24][21]

来源: xAI 官方公告、媒体报道[22],以及有关 Grok-5 的传闻[21]

2025 年 Grok 的优缺点

通过 Grok-4,xAI 在 AI 领域确立了明确的利基市场。截至 2025 年,Grok 的主要优势包括:

  • 卓越的推理与数学能力: 所有 Grok 版本都在逻辑谜题、数量问题和编码方面展现出天赋。尤其是 Grok-4 Heavy,利用多个推理代理来分解问题,与单个 LLM 模型相比,在处理困难任务(如长证明或复杂编码挑战)时错误更少。诸如 MATH、GSM8K 和 HLE 等基准测试将 Grok-4 排名在排行榜的前列或接近榜首。[2]
  • 实时知识整合: Grok 因其与 X 和网络集成,被认为是最前沿的模型之一。它不仅具有比许多其他模型更晚的最新训练截止日期(Grok-4 的训练数据可能到 2025 年中期),还能按需获取实时信息[1]。对于需要当前数据的用例——如新闻分析、股票事件、社交媒体趋势等——Grok 非常实用。它会为这些实时事实提供来源,使验证答案更容易[15]
  • 庞大的上下文和记忆: 在某些版本中,Grok 拥有高达 200 万个 token 的窗口,能够一次性记忆整个代码库或长篇文档。这对审查数千页合同、分析多年的日志或进行深入文献综述等任务产生了变革性影响——Grok 能够“记住”所有这些上下文并跨越这些信息建立联系。此外,xAI 设计的 Grok 能够有效利用这些上下文(Grok-1.5 中的 128k 上下文已经表现出近乎完美的回忆能力)。
  • 工具使用与多代理编排: Grok-4 Heavy 的设计使用专门的代理和工具,这意味着它不是一个“黑箱”。它可以遵循明确的工作流程——搜索这个,计算那个,然后组合答案。这不仅往往能产生更准确的答案(每个子任务都由专家处理),而且当 Grok 分享其思维步骤时,使其推理更加可解释。对于开发者而言,通过添加新工具来扩展 Grok 的能力更加容易,因为该模型已经被调校以在适当时使用工具。
  • 开放性和可部署性: 与 OpenAI 的模型不同,Grok 家族的部分模型是开放的。Grok-1 的权重是公开的,Musk 表示 Grok-2.5 甚至可能 Grok-3 将开源。这意味着研究人员可以检查甚至在自己的数据上微调这些模型。对于企业来说,xAI 提供内部部署或专用云实例(通过 Oracle 等)以缓解数据隐私问题[2][3]。这种灵活性——从完全托管的 SaaS 到自托管——是 Grok 在市场中的一大优势。

然而,Grok 也并非没有其限制

  • **安全性和调优挑战:**Grok 早期定位为“极致求真、政治不正确”的 AI,意味着其过滤较少,相较竞争对手更容易出现明显错误。尤其是 Grok-3 在某些情况下生成了对希特勒的赞美和反犹太言论[19]。xAI 不得不紧急调整系统提示和微调以防止此类输出。虽然 Grok-4 更加安全,但仍在尝试保持前卫与不冒犯之间的平衡。在受监管行业的企业使用 Grok 时,可能会谨慎并实施额外的内容审核层。另一方面,Grok 会回答其他 AI 拒绝的问题(例如,它可能提供关于有争议话题的信息,而 OpenAI 或 Anthropic 模型会拒绝),这取决于使用场景,可能是优点也可能是缺点。
  • **生态系统成熟度:**xAI 是较新的参与者,因此其第三方集成、库和社区资源的生态系统比 OpenAI 或 Google 小。虽然 Grok 有 API,但现成的插件或教程较少,例如如何在自定义数据上进行微调,或将其集成到现有的 ML 管道中。文档已存在但仍在增长。话虽如此,这一差距正在缩小——像 Macaron AI 这样的工具已经开始提供包括 Grok 在内的多模型编排,结合 GPT/Gemini,xAI 的开源方法正在促进社区贡献。
  • **潜在偏见和客观性:**马斯克宣传 Grok 追求真相和客观性,但 Grok 像任何 LLM 一样继承了其训练数据中的偏见。其与 X 数据的紧密集成是一把双刃剑:它了解最新的梗和情感,但也可能反映社交媒体上存在的恶意或偏见观点。xAI 已实施控制措施(AI 导师和“平衡”目标[18]),但用户仍需保持警惕。例如,如果一个话题在 X 上被偏见性地大量讨论,Grok 可能会反映这种情况,直到通过自身的交叉检查或用户反馈得到纠正。
  • **计算要求:**运行最大的 Grok 模型(闭源 Grok-4 Heavy)需求极高。除大科技公司外,很少有组织有能力在没有 xAI 帮助的情况下训练或推理这样的模型。虽然存在较小的变体和开放版本,但如果您希望获得完整的 Grok-4/5 功能并在大规模上使用多代理,您可能需要使用 xAI 的云或合作伙伴服务。这类似于 GPT-4 的动态(只有微软/Azure 真正全面运行它),但对于那些希望开源化会使 Grok 易于自托管的人来说,仍需考虑。Grok-1 的 640GB 显存要求暗示了挑战——更新的 Grok 版本可能会使用更多并行 GPU。

总之,2025年的Grok是强大且独特的——非常适合需要最前沿推理和新鲜信息的用户,但在安全性方面需要谨慎处理,并需要大量资源才能全面部署。

接下来是什么:Grok 5及未来之路

现在所有的目光都集中在Grok-5上,xAI已为2026年发布预告。虽然官方细节稀少,但内部报告和马斯克的暗示描绘了一幅雄心勃勃的图景。Grok-5预计不仅仅是一个大型语言模型——它可能是一个代理型AI平台,将Grok-4的所有优点推向更高层次。主要传闻和可能的特性包括:

  • 「Truth Mode 2.0」——现实引擎: xAI 似乎在通过为 Grok-5 开发内部现实引擎来加强 Grok 的求真声誉[21]。这意味着 Grok-5 可以主动自我事实核查:通过交叉引用多个来源的声明,标记不确定性,甚至运行模拟或形式逻辑检查以进行验证。实际上,如果你问 Grok-5 一个问题,它不仅会回答,还可能提供可信度评分或反驳意见,如果它发现了矛盾的证据。这可能使 Grok-5 在研究分析、法律建议或医学信息等领域更可靠——这些领域当前的 LLM 有时会“幻觉”出错误的事实。现实引擎可能涉及知识图谱的整合,甚至可能有**图神经网络(GNN)**组件(有迹象表明 xAI 正在探索 GNN,以赋予 Grok 结构化推理能力)[2][22]
  • 更大的自主性和多步骤任务: 据传 Grok-5 将具备*“自主性”,能够在数字空间中处理多步骤任务,无需持续提示[23]。这意味着一个更先进的规划者——Grok-5 可能让你说:“Grok,处理我下个月的旅行预订”,它会与工具/服务互动,以完成此任务,仅在需要时请求确认。Grok-4 Heavy 中的多代理系统可能会演变为一个更具连贯性的单一代理,内部管理子代理,减少用户的微观管理。xAI 对项目“Valis”*的暗示表明,他们正在构建一个可以推理现实世界因果关系并可能协调复杂行动的东西,且在某些内部测试中取得了前所未有的高分[20]。在企业环境中,Grok-5 可能能够充当 AI 项目经理或研究分析师,而不仅仅是一个问答机器人。
  • 可扩展性和模型规模: 如果 Grok-1 是 314B 且 Grok-4 可能更大(加上多代理),Grok-5 可能会将参数数量扩展到万亿级——很可能通过 MoE 扩展,而不是密集模型。xAI 的 Colossus 集群(特别是计划的升级)应该有足够的计算能力来训练超过万亿参数,如果他们有效地使用稀疏方法[25]训练数据也将扩展:Grok-5 将拥有额外一年的网络和 X 数据、更精细的人类反馈,可能还有多模态训练(视频、音频),以使其更为通用。我们可能还会看到更长的上下文得到原生支持(数百万个 token 作为标准,而不仅仅是特殊模式),因为记忆架构在不断改进。
  • 增强的多模态性: Grok-5 几乎可以肯定会在视觉方面有所改进(可能达到专门模型的图像理解水平),并可能引入新的模式,如音频和视频分析。马斯克对 xAI 在特斯拉(自动驾驶等)中贡献的兴趣,使得一个能够分析传感器数据、摄像头视频,甚至是机器人指令的 Grok 成为可能。无论如何,Grok-5 将致力于无缝整合文本、图像,甚至可能的实时数据流。
  • 开源与封闭: 马斯克已表示承诺开源旧的 Grok 模型,到 Grok-5 推出时,Grok-3 或 4 可能会公开。Grok-5 本身最初不太可能是开放权重(由于竞争优势),但 xAI 可能会发布一个略微缩减版或较早的检查点供研究人员使用。这种部分开放部分专有的策略可能会继续,这将保持 Grok 的社区参与度,同时仍给予 xAI 产品优势。
  • 与 GPT-5/Gemini 的竞争: 到 2025 年至 2026 年,OpenAI(可能是 GPT-5)和 Google DeepMind(Gemini 系列)的新一代模型将出现。Grok-5 明确定位为*“推翻巨头”[22]。这意味着我们可以期待 xAI 针对这些模型的任何弱点。例如,如果 GPT-5 非常强大,但仍然封闭且缺乏实时信息,xAI 将强调 Grok-5 的开放性和实时数据。如果 Gemini 强大但可能在回答上更保守,xAI 将推动 Grok 的无保留实用性。基本上,Grok-5 的成功将取决于它在原始性能上与这些对手匹敌,并在理念上差异化*(更透明,更用户控制等)。

在此期间,xAI 有一系列功能计划,可能会在完整的 Grok-5 发布之前推出。其中包括个性化 AI 实例(使用用户自己的数据创建个人模型,并具备隐私控制)、与 X 平台的深度集成(Grok 作为内置助手用于内容创作或审核),以及领域专用的 Grok 微调(例如,金融专用的 Grok、医学专用的 Grok,它们利用专业数据)。所有这些都会在迈向 Grok-5 的过程中积聚势头。

为 Grok-5 做准备:开发者和团队应该做些什么?

如果您是一名工程师、数据科学家或产品负责人,关注 Grok 的发展,关键问题是如何利用这些进步。以下是一些为 Grok-5 及类似下一代模型做好准备的实用考虑:

  • 现在采用多模型策略: 不要把所有的鸡蛋放在一个AI篮子里。Grok-5 将会很强大,但它将与 OpenAI、Google、Anthropic 等模型共存。最好的系统通常会合并或路由查询到不同的模型,基于各自的优势。你可以从今天开始:使用 Grok-4 来处理它最擅长的事情(实时信息、数学、长上下文检索),并在其他模型擅长的地方使用它们(比如 GPT-4 进行创意写作或 Claude 进行大型摘要等)。通过建立一个对模型无感知的管道,当 Grok-5 到来时,替换它只需更改 API 端点或权重设置,而不是彻底大改。
  • 构建稳健的评估管道: 随着每次模型升级,行为可能会改变。Grok-5 可能会纠正一些 Grok-4 的怪癖,但也可能引入新的问题。设置自动化评估,使用自己的测试用例——测量不同模型版本之间的准确性、输出质量、延迟和成本。包括边缘案例和敏感查询,以捕捉任何在安全性或合规性方面的回归。有了这些,当 Grok-5 到来时,你可以在全面部署到生产环境之前定量验证其改进(或任何新风险)。
  • 利用工具并保持人类在环: 从 Grok 的设计中学到的一个经验是,工具和人类极大地提高了可靠性。即使你无法访问 Grok-4 Heavy 的内部代理系统,你也可以模仿它:对于关键任务,让你的系统调用外部 API(搜索、计算器)来支持模型,并考虑让人类审核重要的输出。Grok-5 可能允许更加自主的操作,但你应该决定在哪里想要人类参与。比如,Grok-5 可以起草分析报告,甚至进行事实核查,但你仍然需要人类来核准其语气和最终准确性。现在定义这些界限,将使集成更加顺利。
  • 尽早处理数据治理: Grok 与 X 的紧密集成意味着它可以使用用户数据进行个性化和改进,但公司必须谨慎处理隐私问题。X 帮助中心明确表示用户可以选择不分享数据用于 Grok 的训练和个性化[26][27]。如果你计划将 Grok(或任何AI)与用户数据结合,需建立明确的同意和退出流程。此外,如果你在应用中使用 Grok-API,考虑到输出和你的提示可能被 xAI 记录用于模型改进[16]。审查这些政策,如果你的数据不能离开某些边界,或许选择本地部署解决方案。xAI 的企业服务可能允许在你的云环境中运行隔离的 Grok-4 模型[2],这对于敏感用途可能是理想的中间地带。
  • 保持公正并核实声明: Grok-5 的现实引擎将有助于事实核查,但没有 AI 是完美的。在团队中推动核实 AI 输出的文化,尤其是在高风险决策中。使用引用功能——如果 Grok 提供来源,让你的系统获取该来源并检查它(甚至可以向用户展示)。鼓励 AI 功能的用户仔细检查重要答案。这不仅可以降低风险,也符合 EEAT(经验、专业知识、权威性、可信度)原则,这在内容发布到网上时尤为重要。你想要的是 Grok 的强大能力与人类判断的结合,而不是盲目相信即使是“追求真相”的模型。

总之,xAI 的 Grok 发展速度惊人,如果 Grok-5 能达到预期,它可能会为 AI 助手设定新的标准——集事实核查、推理引擎和自主代理于一身。通过了解 Grok 的基础设施和设计选择,我们看到了一个重视实时知识和推理透明度的 AI 系统模板。无论你是否采用 Grok,这些想法(长文本、工具使用、多代理推理、从反馈中持续学习)都可能成为未来所有严肃的 AI 平台的一部分。任何技术敏锐的团队能做的最好的事情就是构建灵活性,并深入研究每个新模型(如 Grok-5、GPT-5、Gemini 等)如何融入他们的技术栈。AI 领域正在以闪电般的速度发展——今天最前沿的 Grok-4 可能会被明天的 Grok-5 超越——但通过保持客观、知情和适应性,你可以乘风破浪,而不是被淹没。

来源:

1.        xAI 新闻——“xAI 的 Memphis 超级集群上线,最多可达 100,000 个 Nvidia H100 GPU”[7](2024 年 7 月)

2.        ServeTheHome——“深入探讨 100K GPU xAI 巨型集群” (2024 年 10 月)

  1. AMD ROCm 博客 – 「在 AMD GPU 上使用 Grok-1 进行推理」 (2024年8月)

  2. xAI 公告 – 「宣布 Grok-1.5」 (2024年3月)

  3. xAI 公告 – 「Grok-1(模型卡)的开放发布」 (2023年11月)

  4. Encord 博客 – 「Grok-1.5V 多模态 – 初探」 (2024年4月)

  5. xAI 帮助中心 – 「关于 Grok,你在 X 上幽默的 AI 助手」[11][1] (访问于2025年11月)

  6. Oracle Cloud 文档 – 「xAI Grok 4 – 模型信息」[2][22] (2025年)

  7. The Verge – 「xAI 在有争议的输出后调整 Grok」[19] (2025年11月)

  8. AI 新闻中心 – 「xAI Grok 5 谣言:真相模式 2.0 及其期待」[21] (2025年8月)


[1] [11] [16] [18] [26] [27] 关于 Grok

https://help.x.com/en/using-x/about-grok

[2] [3] [22] Grok AI:xAI 最新新闻、更新和功能 | AI 新闻中心

https://www.ainewshub.org/blog/categories/grok

[4] [5] Colossus 的构建:Supermicro 为 Elon Musk 的 xAI 打造的突破性 AI 超级计算机 | VentureBeat

https://venturebeat.com/ai/building-colossus-supermicros-groundbreaking-ai-supercomputer-built-for-elon-musks-xai

[6] [7] [25] xAI 的孟菲斯超级集群已上线,配备多达 100,000 个 Nvidia H100 GPU - DCD

https://www.datacenterdynamics.com/en/news/xais-memphis-supercluster-has-gone-live-with-up-to-100000-nvidia-h100-gpus/

[8] [9] [10] 宣布 Grok-1.5 | xAI

https://x.ai/news/grok-1.5

[12] [13] [14] [15] [17] 将 Grok 带给每个人 | xAI

https://x.ai/news/grok-1212

[19] 为什么 Grok 在 X 上发布虚假、冒犯性的内容?这里有 4 个 ...

https://www.politifact.com/article/2025/jul/10/Grok-AI-chatbot-Elon-Musk-artificial-intelligence/

[20] [21] [23] [24] xAI Grok 5 谣言:发布日期、「Truth Mode」2.0,以及 2026 年初的预期

https://www.ainewshub.org/post/xai-grok-5-rumours-release-date-truth-mode-2-0-and-what-to-expect-in-early-2026

Boxu 在埃默里大学获得了定量经济学专业的学士学位。在加入 Macaron 之前,Boxu 的职业生涯大部分时间都在美国的私募股权和风险投资领域度过。他现在是 Macaron AI 的首席参谋和市场营销副总裁,负责管理财务、物流和运营,并监督市场营销。

申请成为 Macaron 的首批朋友