关于 Grok 4 你需要知道的一切

您可能已经听说过 Grok 4 的发布，这是埃隆·马斯克的 xAI 团队的最新突破。

在这篇文章中，我们将深入探讨这个模型是什么，它的统计数据，它是否优秀，或者只是另一个普通的AI模型，它是否能实现通用人工智能，以及到目前为止社区的总体印象。

读完这篇文章，您将获得所有必要的信息，从而决定是否要使用 Grok 4。

事不宜迟，让我们开始吧！

Grok 4 简介

Grok 4 是一个推理模型，也是迄今为止最智能的模型，正如您在下面的基准测试中看到的那样。坦白说，这个模型不仅能与其他人工智能模型竞争，还能与人类匹敌，使其成为同类模型中的首创（我们稍后会讨论这一点）。

如上图所示，与近期推出的AI模型相比，Grok 4在智能性、速度和定价方面均表现出色。它在人工智能排行榜上名列前茅，但仔细观察会发现，它的响应速度稍慢。Grok 4的延迟时间（首次令牌响应时间）约为13.58秒，该指标衡量的是接收AI模型第一部分响应所需的时间。这略低于OpenAI o4-mini-high，与Claude Sonnet 4模型持平。

它的训练数据量是xAI 推出的首个公开 AI 模型 Grok 2 的100 倍，强化学习计算能力是目前市场上任何其他 AI 模型的10 倍左右。

它的上下文窗口容量为 25.6 万个令牌（模型一次可以读取和记住的信息量），与最近发布的 Gemini 2.5 Pro 的 100 万个令牌相比，这个容量相当低。它比 Claude 4 系列略好一些，后者拥有大约 20 万个令牌。

Grok 4 的定价相当标准，但也有一些限制。它的定价与 Grok 3 相同，即每百万个输入代币 3 美元（超过 12.8 万个后翻倍），每百万个输出代币 15 美元（超过 12.8 万个后翻倍）。

Grok 4 的主要基准测试结果

该型号在 GPQA 钻石级测试中取得了 87.5% 的历史最高分，比 Gemini 2.5 Pro 的 86.4% 大获全胜。

（GPQA Diamond 测试模型回答研究生水平、专家领域问题（例如，物理、法律、医学）的能力）
它在人类最终考试中取得了 25.4% 的历史最高分，超过了 Gemini 2.5 Pro 之前的 21.6% 的分数。

（人类终极考试旨在测试大型语言模型（LLM）在人类知识前沿的能力）
它在 MMLU-Pro 和 AIME 2025 中的得分分别为 87% 和 94%。

（MMLU-Pro 在 57 个以上专业级学科领域测试该模型，包括法律、工程、医学等。AIME 2024 则衡量该模型在高中奥林匹克水平数学题上的表现。）
它在编码基准测试中也表现出色，在 LiveCodeBench 中排名第一，得分为 79.4%，而第二名的得分为 74.2%。

（LiveCodeBench 是一个实时编码基准测试工具，它不仅测试静态代码生成，还测试模型在实时交互式编程任务中的应用。）

是的，它在其他一些基准测试中也领先于所有模型，但这些是最有趣的几个测试。

总而言之，目前，如果你进行任何基准测试，Grok 4 很可能在所有测试中都处于领先地位。

那么如何才能访问它呢？它可以通过 API 和付费订阅两种方式获取。您可以通过 SuperGrok 以每月 30 美元或每年 300 美元的价格访问标准版 Grok 4。但是，要访问Grok 4 Heavy，您需要订阅 SuperGrok Heavy 套餐，该套餐的价格为每月 300 美元或每年 3000 美元。

Grok 4：这是标准的通用型模型，针对解决问题、一般对话和写作等一系列任务进行了微调。它是 Grok 4 系列的默认模型。
Grok 4 Heavy：这是 Grok 4 系列中的专业版本。它采用多智能体技术，即并行运行多个 AI 智能体来分析和解决问题，并得出最佳解决方案。这极大地提高了准确性，主要用于深度研究、数据分析以及任何需要大量思考的任务。

更棒的是，如果您只是想测试模型，它也可以在 OpenRouter 上找到，所以如果您有 API 密钥，就可以开始了。

Grok 4 是否实现了通用人工智能（AGI）？

如果您还不了解通用人工智能（AGI），让我简单解释一下。基本上，我们使用的生成式人工智能，例如 OpenAI 模型、Claude Sonnet 模型等等，都是基于学习到的模式或训练数据来生成内容。

然而，通用人工智能（AGI）能够有意识地生成内容，其创造力可与人类智能相媲美。

朋友，我告诉你，这可不是凭空就能造出来的东西，绝对不是。我们现在说的是要达到人脑水平的人工智能，这可不是件容易的事。

现在回到正题，它尚未实现通用人工智能，但它是迈向通用人工智能竞赛的一大步，也是第一个在 ARC-AGI 基准测试中得分超过 15% 的模型，而且成本更低。

xAI 还使用名为Vending Bench 的真实场景模拟测试了 Grok 4。该基准测试旨在检验模型能否长期管理一家小型企业，并处理所有相关事务，例如库存补货、与供应商合作、调整价格等等。这是一个非常有趣的 AI 模型真实场景测试，而 Grok 4 的表现也相当出色。

正如你所看到的，Grok 4 的收入和规模是其主要竞争对手 Claude Opus 4 的两倍以上。

Grok 4 与其他 AI 模型根本无法相提并论，而且它的价格更低。所以，没错，这是迈向通用人工智能 (AGI) 的一大步，但它距离真正实现 AGI 还很远。

xAI的社区印象和未来计划

马斯克本人声称，你可以将整个源代码复制粘贴到查询语句中，它就能自动修复漏洞或添加新功能，就这么简单。据说它的效果“比 Cursor 更好”。

事实证明，这确实如此。自从这个模型发布不到一周以来，社区已经用它构建了很多东西，而且我们得到的结果令人惊叹。

它竟然一击就解决了如此匪夷所思的事情，而且据说它在所有学科领域都比博士水平还要强。好好想想吧。

🗣️ “就学术问题而言，Grok 4 在所有学科领域都优于博士水平。没有例外。”——埃隆·马斯克

在发布这款模型时，他们简要介绍了 xAI 的下一步发展方向，以下是具体内容：

来源：xAI

预计未来几个月我们将看到以下情况：

Grok 代码 - 下个月发布
Grok 多模态或浏览代理将于 9 月发布
Grok 视频生成于十月下旬

因此，如果您使用 AI 模型的主要目的是进行编码，那么或许值得再等一个月，看看它是否更适合您的用例。

Grok 4 的优缺点

Grok 4 在选择合适的工具和使用正确的参数进行工具调用方面，准确率约为 99%，几乎每次都能做到。

它被设计成具有自主性，这意味着它可以借助单个或多个智能体在后台轻松处理多项任务。正如我们上面讨论的基准测试结果所示，它堪称学术界的奇才，也是首批在ARC-AGI基准测试中突破10%门槛的AI模型之一，这使其能够做出果断的决策和计划，从而成为一个非常强大的模型。

然而，在多模态能力方面，尤其是在图像生成和分析方面，它的表现并没有好多少，甚至不如o3、Claude 4等顶级多模态人工智能模型。不过，这种情况在未来几天内将会得到显著改善。

我非常讨厌这个模型的另一个原因是它在 xAI 之上实现的速率限制。几乎每连续发出 2-3 个提示，就会被限速几分钟，这真的很令人沮丧，尤其是在你更倾向于将这个模型用于研究性场景时，你很可能需要向模型发出多个提示才能得到预期的答案。

结论

如果让我总结一下我们目前为止读到的所有内容，它绝对是目前用于推理、深度研究和数据分析的最佳模型（至少现在是这样！）。Grok 4 并不适合编程，所以最好再等一个月左右，看看有没有针对编程优化的版本。

这无疑是目前人工智能领域最大的突破，据称它是迄今为止最接近通用人工智能（AGI）的模型。所以，这个模型潜力巨大，使用时务必谨慎。

能力越大，责任越大！😉

请告诉我你对 Grok 4 目前的看法，如果你自己测试过，它的表现如何？请在下方评论区留言！

在 Forge 上试试 Grok 4

我们最近在 Forge 上添加了对 Grok 4 的支持。如果您对此感兴趣，不妨在 Forge 上试用一下。只需一分钟即可创建帐户并开始使用。亲自体验一下它的性能是否如基准测试结果所示，以及您是否想将此模型添加到您的日常工作流程中。

脚注

文章来源：https://dev.to/forgecode/everything-you-need-to-know-about-grok-4-5524

菜单

分享

关于 Grok 4 你需要知道的一切

关于 Grok 4 你需要知道的一切

Grok 4 简介

Grok 4 的主要基准测试结果

Grok 4 是否实现了通用人工智能（AGI）？

xAI的社区印象和未来计划

Grok 4 的优缺点

结论

在 Forge 上试试 Grok 4

相关文章

脚注

系统设计面试中的 19 种微服务模式

使用 React 和 AWS Amplify 实现无服务器架构第三部分：跟踪应用使用情况

模型-视图-控制器（MVC）模式到底是什么？DEV 全球项目展示挑战赛，由 Mux 主办：快来展示你的项目吧！

我在两年内从 PHP 开发人员晋升为高级 C#/.NET 开发人员。

了解 Docker：第 12 部分 – 传递构建参数

Yarn 和第三方 NPM 客户端的黑暗未来 DEV 的全球展示与讲述挑战赛，由 Mux 呈现：展示你的项目！

CSS DEV 的全球展示挑战赛“响应式字体”由 Mux 呈现：展示你的项目！

我是如何以学生开发者的身份免费获得 Tabnine Pro 的，你也可以！

五大顶级JS框架

从 Rector PHP 开始：利用自动化改进您的 PHP 代码