发布于 2026-01-06 3 阅读
0

关于 Grok 4 你需要知道的一切

关于 Grok 4 你需要知道的一切

您可能已经听说过 Grok 4 的发布,这是埃隆·马斯克的 xAI 团队的最新突破。

在这篇文章中,我们将深入探讨这个模型是什么,它的统计数据,它是否优秀,或者只是另一个普通的AI模型,它是否能实现通用人工智能,以及到目前为止社区的总体印象。

读完这篇文章,您将获得所有必要的信息,从而决定是否要使用 Grok 4。

事不宜迟,让我们开始吧!

Grok 4 简介

Grok 4 是一个推理模型,也是迄今为止最智能的模型,正如您在下面的基准测试中看到的那样。坦白说,这个模型不仅能与其他人工智能模型竞争,还能与人类匹敌,使其成为同类模型中的首创(我们稍后会讨论这一点)。

图1

如上图所示,与近期推出的AI模型相比,Grok 4在智能性、速度和定价方面均表现出色。它在人工智能排行榜上名列前茅,但仔细观察会发现,它的响应速度稍慢。Grok 4的延迟时间(首次令牌响应时间)约为13.58秒,该指标衡量的是接收AI模型第一部分响应所需的时间。这略低于OpenAI o4-mini-high,与Claude Sonnet 4模型持平。

它的训练数据量是xAI 推出的首个公开 AI 模型 Grok 2 的100 倍强化学习计算能力是目前市场上任何其他 AI 模型的10 倍左右。

图2

它的上下文窗口容量为 25.6 万个令牌(模型一次可以读取和记住的信息量),与最近发布的 Gemini 2.5 Pro 的 100 万个令牌相比,这个容量相当低。它比 Claude 4 系列略好一些,后者拥有大约 20 万个令牌。

Grok 4 的定价相当标准,但也有一些限制。它的定价与 Grok 3 相同,即每百万个输入代币 3 美元(超过 12.8 万个后翻倍),每百万个输出代币 15 美元(超过 12.8 万个后翻倍)。

Grok 4 的主要基准测试结果

  1. 该型号在 GPQA 钻石级测试中取得了 87.5% 的历史最高分,比 Gemini 2.5 Pro 的 86.4% 大获全胜。

    (GPQA Diamond 测试模型回答研究生水平、专家领域问题(例如,物理、法律、医学)的能力)

  2. 它在人类最终考试中取得了 25.4% 的历史最高分,超过了 Gemini 2.5 Pro 之前的 21.6% 的分数。

    (人类终极考试旨在测试大型语言模型(LLM)在人类知识前沿的能力)

  3. 它在 MMLU-Pro 和 AIME 2025 中的得分分别为 87% 和 94%。

    (MMLU-Pro 在 57 个以上专业级学科领域测试该模型,包括法律、工程、医学等。AIME 2024 则衡量该模型在高中奥林匹克水平数学题上的表现。)

  4. 它在编码基准测试中也表现出色,在 LiveCodeBench 中排名第一,得分为 79.4%,而第二名的得分为 74.2%。

    (LiveCodeBench 是一个实时编码基准测试工具,它不仅测试静态代码生成,还测试模型在实时交互式编程任务中的应用。)

是的,它在其他一些基准测试中也领先于所有模型,但这些是最有趣的几个测试。

图3

总而言之,目前,如果你进行任何基准测试,Grok 4 很可能在所有测试中都处于领先地位。

那么如何才能访问它呢?它可以通过 API 和付费订阅两种方式获取。您可以通过 SuperGrok 以每月 30 美元或每年 300 美元的价格访问标准版 Grok 4。但是,要访问Grok 4 Heavy,您需要订阅 SuperGrok Heavy 套餐,该套餐的价格为每月 300 美元或每年 3000 美元。

  • Grok 4:这是标准的通用型模型,针对解决问题、一般对话和写作等一系列任务进行了微调。它是 Grok 4 系列的默认模型。
  • Grok 4 Heavy:这是 Grok 4 系列中的专业版本。它采用多智能体技术,即并行运行多个 AI 智能体来分析和解决问题,并得出最佳解决方案。这极大地提高了准确性,主要用于深度研究、数据分析以及任何需要大量思考的任务。

图4

更棒的是,如果您只是想测试模型,它也可以在 OpenRouter 上找到,所以如果您有 API 密钥,就可以开始了。


Grok 4 是否实现了通用人工智能(AGI)?

如果您还不了解通用人工智能(AGI),让我简单解释一下。基本上,我们使用的生成式人工智能,例如 OpenAI 模型、Claude Sonnet 模型等等,都是基于学习到的模式或训练数据来生成内容。

然而,通用人工智能(AGI)能够有意识地生成内容,其创造力可与人类智能相媲美。

朋友,我告诉你,这可不是凭空就能造出来的东西,绝对不是。我们现在说的是要达到人脑水平的人工智能,这可不是件容易的事。

现在回到正题,它尚未实现通用人工智能,但它是迈向通用人工智能竞赛的一大步,也是第一个在 ARC-AGI 基准测试中得分超过 15% 的模型,而且成本更低。

图5

xAI 还使用名为Vending Bench 的真实场景模拟测试了 Grok 4。该基准测试旨在检验模型能否长期管理一家小型企业,并处理所有相关事务,例如库存补货、与供应商合作、调整价格等等。这是一个非常有趣的 AI 模型真实场景测试,而 Grok 4 的表现也相当出色。

图6

正如你所看到的,Grok 4 的收入和规模是其主要竞争对手 Claude Opus 4 的两倍以上。

Grok 4 与其他 AI 模型根本无法相提并论,而且它的价格更低。所以,没错,这是迈向通用人工智能 (AGI) 的一大步,但它距离真正实现 AGI 还很远。


xAI的社区印象和未来计划

马斯克本人声称,你可以将整个源代码复制粘贴到查询语句中,它就能自动修复漏洞或添加新功能,就这么简单。据说它的效果“比 Cursor 更好”

图6

事实证明,这确实如此。自从这个模型发布不到一周以来,社区已经用它构建了很多东西,而且我们得到的结果令人惊叹。

它竟然一击就解决了如此匪夷所思的事情,而且据说它在所有学科领域都比博士水平还要强。好好想想吧。

🗣️ “就学术问题而言,Grok 4 在所有学科领域都优于博士水平。没有例外。”——埃隆·马斯克

在发布这款模型时,他们简要介绍了 xAI 的下一步发展方向,以下是具体内容:

图片7

来源:xAI

预计未来几个月我们将看到以下情况:

  • Grok 代码 - 下个月发布
  • Grok 多模态或浏览代理将于 9 月发布
  • Grok 视频生成于十月下旬

因此,如果您使用 AI 模型的主要目的是进行编码,那么或许值得再等一个月,看看它是否更适合您的用例。


Grok 4 的优缺点

Grok 4 在选择合适的工具和使用正确的参数进行工具调用方面,准确率约为 99%,几乎每次都能做到。

它被设计成具有自主性,这意味着它可以借助单个或多个智能体在后台轻松处理多项任务。正如我们上面讨论的基准测试结果所示,它堪称学术界的奇才,也是首批在ARC-AGI基准测试中突破10%门槛的AI模型之一,这使其能够做出果断的决策和计划,从而成为一个非常强大的模型。

然而,在多模态能力方面,尤其是在图像生成和分析方面,它的表现并没有好多少,甚至不如o3、Claude 4等顶级多模态人工智能模型。不过,这种情况在未来几天内将会得到显著改善。

我非常讨厌这个模型的另一个原因是它在 xAI 之上实现的速率限制。几乎每连续发出 2-3 个提示,就会被限速几分钟,这真的很令人沮丧,尤其是在你更倾向于将这个模型用于研究性场景时,你很可能需要向模型发出多个提示才能得到预期的答案。


结论

如果让我总结一下我们目前为止读到的所有内容,它绝对是目前用于推理、深度研究和数据分析的最佳模型(至少现在是这样!)。Grok 4 并不适合编程,所以最好再等一个月左右,看看有没有针对编程优化的版本。

这无疑是目前人工智能领域最大的突破,据称它是迄今为止最接近通用人工智能(AGI)的模型。所以,这个模型潜力巨大,使用时务必谨慎。

能力越大,责任越大!😉

请告诉我你对 Grok 4 目前的看法,如果你自己测试过,它的表现如何?请在下方评论区留言!


在 Forge 上试试 Grok 4

我们最近在 Forge 上添加了对 Grok 4 的支持。如果您对此感兴趣,不妨在 Forge 上试用一下。只需一分钟即可创建帐户并开始使用。亲自体验一下它的性能是否如基准测试结果所示,以及您是否想将此模型添加到您的日常工作流程中。


相关文章

  1. Claude Opus 4 与 Grok 4 编码比较
  2. Claude 4 对比 Gemini 2.5 Pro
  3. 《克劳德4》抢先看

脚注

  1. 人工分析。“Grok 4 模型卡。”
  2. OpenRouter。“OpenRouter:通过统一 API 访问 LLM。”
  3. xAI。“Grok 4 发布及基准测试直播。” Twitter/X Post。
  4. Andon Labs。“自动售货台:现实世界中的通用人工智能模拟。”
  5. Grok。“订阅 Grok 和 SuperGrok 套餐。”
文章来源:https://dev.to/forgecode/everything-you-need-to-know-about-grok-4-5524