关于 Grok 4 你需要知道的一切
您可能已经听说过 Grok 4 的发布,这是埃隆·马斯克的 xAI 团队的最新突破。
在这篇文章中,我们将深入探讨这个模型是什么,它的统计数据,它是否优秀,或者只是另一个普通的AI模型,它是否能实现通用人工智能,以及到目前为止社区的总体印象。
读完这篇文章,您将获得所有必要的信息,从而决定是否要使用 Grok 4。
事不宜迟,让我们开始吧!
Grok 4 简介
Grok 4 是一个推理模型,也是迄今为止最智能的模型,正如您在下面的基准测试中看到的那样。坦白说,这个模型不仅能与其他人工智能模型竞争,还能与人类匹敌,使其成为同类模型中的首创(我们稍后会讨论这一点)。
如上图所示,与近期推出的AI模型相比,Grok 4在智能性、速度和定价方面均表现出色。它在人工智能排行榜上名列前茅,但仔细观察会发现,它的响应速度稍慢。Grok 4的延迟时间(首次令牌响应时间)约为13.58秒,该指标衡量的是接收AI模型第一部分响应所需的时间。这略低于OpenAI o4-mini-high,与Claude Sonnet 4模型持平。
它的训练数据量是xAI 推出的首个公开 AI 模型 Grok 2 的100 倍,强化学习计算能力是目前市场上任何其他 AI 模型的10 倍左右。
它的上下文窗口容量为 25.6 万个令牌(模型一次可以读取和记住的信息量),与最近发布的 Gemini 2.5 Pro 的 100 万个令牌相比,这个容量相当低。它比 Claude 4 系列略好一些,后者拥有大约 20 万个令牌。
Grok 4 的定价相当标准,但也有一些限制。它的定价与 Grok 3 相同,即每百万个输入代币 3 美元(超过 12.8 万个后翻倍),每百万个输出代币 15 美元(超过 12.8 万个后翻倍)。
Grok 4 的主要基准测试结果
-
该型号在 GPQA 钻石级测试中取得了 87.5% 的历史最高分,比 Gemini 2.5 Pro 的 86.4% 大获全胜。
(GPQA Diamond 测试模型回答研究生水平、专家领域问题(例如,物理、法律、医学)的能力)
-
它在人类最终考试中取得了 25.4% 的历史最高分,超过了 Gemini 2.5 Pro 之前的 21.6% 的分数。
(人类终极考试旨在测试大型语言模型(LLM)在人类知识前沿的能力)
-
它在 MMLU-Pro 和 AIME 2025 中的得分分别为 87% 和 94%。
(MMLU-Pro 在 57 个以上专业级学科领域测试该模型,包括法律、工程、医学等。AIME 2024 则衡量该模型在高中奥林匹克水平数学题上的表现。)
-
它在编码基准测试中也表现出色,在 LiveCodeBench 中排名第一,得分为 79.4%,而第二名的得分为 74.2%。
(LiveCodeBench 是一个实时编码基准测试工具,它不仅测试静态代码生成,还测试模型在实时交互式编程任务中的应用。)
是的,它在其他一些基准测试中也领先于所有模型,但这些是最有趣的几个测试。
总而言之,目前,如果你进行任何基准测试,Grok 4 很可能在所有测试中都处于领先地位。
那么如何才能访问它呢?它可以通过 API 和付费订阅两种方式获取。您可以通过 SuperGrok 以每月 30 美元或每年 300 美元的价格访问标准版 Grok 4。但是,要访问Grok 4 Heavy,您需要订阅 SuperGrok Heavy 套餐,该套餐的价格为每月 300 美元或每年 3000 美元。
- Grok 4:这是标准的通用型模型,针对解决问题、一般对话和写作等一系列任务进行了微调。它是 Grok 4 系列的默认模型。
- Grok 4 Heavy:这是 Grok 4 系列中的专业版本。它采用多智能体技术,即并行运行多个 AI 智能体来分析和解决问题,并得出最佳解决方案。这极大地提高了准确性,主要用于深度研究、数据分析以及任何需要大量思考的任务。
更棒的是,如果您只是想测试模型,它也可以在 OpenRouter 上找到,所以如果您有 API 密钥,就可以开始了。
Grok 4 是否实现了通用人工智能(AGI)?
如果您还不了解通用人工智能(AGI),让我简单解释一下。基本上,我们使用的生成式人工智能,例如 OpenAI 模型、Claude Sonnet 模型等等,都是基于学习到的模式或训练数据来生成内容。
然而,通用人工智能(AGI)能够有意识地生成内容,其创造力可与人类智能相媲美。
朋友,我告诉你,这可不是凭空就能造出来的东西,绝对不是。我们现在说的是要达到人脑水平的人工智能,这可不是件容易的事。
现在回到正题,它尚未实现通用人工智能,但它是迈向通用人工智能竞赛的一大步,也是第一个在 ARC-AGI 基准测试中得分超过 15% 的模型,而且成本更低。
xAI 还使用名为Vending Bench 的真实场景模拟测试了 Grok 4。该基准测试旨在检验模型能否长期管理一家小型企业,并处理所有相关事务,例如库存补货、与供应商合作、调整价格等等。这是一个非常有趣的 AI 模型真实场景测试,而 Grok 4 的表现也相当出色。
正如你所看到的,Grok 4 的收入和规模是其主要竞争对手 Claude Opus 4 的两倍以上。
Grok 4 与其他 AI 模型根本无法相提并论,而且它的价格更低。所以,没错,这是迈向通用人工智能 (AGI) 的一大步,但它距离真正实现 AGI 还很远。
xAI的社区印象和未来计划
马斯克本人声称,你可以将整个源代码复制粘贴到查询语句中,它就能自动修复漏洞或添加新功能,就这么简单。据说它的效果“比 Cursor 更好”。
事实证明,这确实如此。自从这个模型发布不到一周以来,社区已经用它构建了很多东西,而且我们得到的结果令人惊叹。
它竟然一击就解决了如此匪夷所思的事情,而且据说它在所有学科领域都比博士水平还要强。好好想想吧。
🗣️ “就学术问题而言,Grok 4 在所有学科领域都优于博士水平。没有例外。”——埃隆·马斯克
在发布这款模型时,他们简要介绍了 xAI 的下一步发展方向,以下是具体内容:
来源:xAI
预计未来几个月我们将看到以下情况:
- Grok 代码 - 下个月发布
- Grok 多模态或浏览代理将于 9 月发布
- Grok 视频生成于十月下旬
因此,如果您使用 AI 模型的主要目的是进行编码,那么或许值得再等一个月,看看它是否更适合您的用例。
Grok 4 的优缺点
Grok 4 在选择合适的工具和使用正确的参数进行工具调用方面,准确率约为 99%,几乎每次都能做到。
它被设计成具有自主性,这意味着它可以借助单个或多个智能体在后台轻松处理多项任务。正如我们上面讨论的基准测试结果所示,它堪称学术界的奇才,也是首批在ARC-AGI基准测试中突破10%门槛的AI模型之一,这使其能够做出果断的决策和计划,从而成为一个非常强大的模型。
然而,在多模态能力方面,尤其是在图像生成和分析方面,它的表现并没有好多少,甚至不如o3、Claude 4等顶级多模态人工智能模型。不过,这种情况在未来几天内将会得到显著改善。
我非常讨厌这个模型的另一个原因是它在 xAI 之上实现的速率限制。几乎每连续发出 2-3 个提示,就会被限速几分钟,这真的很令人沮丧,尤其是在你更倾向于将这个模型用于研究性场景时,你很可能需要向模型发出多个提示才能得到预期的答案。
结论
如果让我总结一下我们目前为止读到的所有内容,它绝对是目前用于推理、深度研究和数据分析的最佳模型(至少现在是这样!)。Grok 4 并不适合编程,所以最好再等一个月左右,看看有没有针对编程优化的版本。
这无疑是目前人工智能领域最大的突破,据称它是迄今为止最接近通用人工智能(AGI)的模型。所以,这个模型潜力巨大,使用时务必谨慎。
能力越大,责任越大!😉
请告诉我你对 Grok 4 目前的看法,如果你自己测试过,它的表现如何?请在下方评论区留言!
在 Forge 上试试 Grok 4
我们最近在 Forge 上添加了对 Grok 4 的支持。如果您对此感兴趣,不妨在 Forge 上试用一下。只需一分钟即可创建帐户并开始使用。亲自体验一下它的性能是否如基准测试结果所示,以及您是否想将此模型添加到您的日常工作流程中。
相关文章
脚注
- 人工分析。“Grok 4 模型卡。”
- OpenRouter。“OpenRouter:通过统一 API 访问 LLM。”
- xAI。“Grok 4 发布及基准测试直播。” Twitter/X Post。
- Andon Labs。“自动售货台:现实世界中的通用人工智能模拟。”
- Grok。“订阅 Grok 和 SuperGrok 套餐。”







