O

OpenAI o3——思考,快与慢

2025-05-25

OpenAI o3——思考,快与慢

OpenAI 今天公布了o3模型——“推理”模型的进一步发展,也​​是o1的后继者。

我对它在ARC-AGI-1基准测试中的显著提升印象深刻——据称这是当前一代 LLM 无法超越的基准测试。o1 的最高分是 32%,而 o3 则跃升至 88%。Arc Challenge(击败 ARC-AGI 可获得 100 万美元奖励)的作者非常有信心,基于 Transformer 的模型不会在他们的基准测试中取得成功——他们对 o1 印象不佳。然而,o3 的博客文章却表达了完全不同的观点,使用了“令人惊讶”、“新颖”和“突破”等词语。然而有一个问题——它非常非常昂贵:76% 的得分成本约为 9,000 美元,而 88% 的成本——OpenAI 没有透露(考虑到使用的计算量增加了 172 倍,可以估算出总成本为 150 万美元)。

o3 让我想起了讨论法学硕士 (LLM) 时经常提到的一个比喻。无论任务复杂度如何,GPT 每个 token 使用的计算量/时间都是一样的,就好像它们从潜意识中流式传输信息,从未停下来思考过一样。这类似于人脑“快速”系统 1 的运作方式。

简单回顾一下,《思考,快与慢》是丹尼尔·卡尼曼2011年出版的一本书。他认为,从功能上来说(基于实证研究),我们的大脑有两个部门(或模式):

  • 系统 1,快速 - 毫不费力、自主、联想。
  • 系统 2,缓慢 - 努力、深思熟虑、合乎逻辑。

这两个系统协同工作,塑造了人类的思维过程。我们可以毫无压力地大声朗读一本书,却可能一个字也记不住。我们可以集中注意力,不断在脑海中重现场景和画面,追踪事件和时间线,短时间后就会感到疲惫——但我们或许能从中获得新的知识。

正如吴恩达 (Andrew Ng) 曾经说过的,“尝试输入文本而不按退格键”——这似乎是一项艰巨的任务,而这正是法学硕士 (LLM) 的工作原理。

嗯,直到最近它们才开始工作。当 o1(以及后来的 Deepseek R1、QwQ、Gemini 2.0 Flash Thinking)出现时,这些模型学会了如何突破,并以类似于“慢速”系统的模式运行。

最近有很多关于 LLM 预训练停滞不前、训练数据耗尽、人工智能发展陷入困境的讨论。

我们可能会看到 2025 年即将形成的趋势——将推理/思维模型与传统 LLM 相结合,将它们互连为慢速思维和快速思维:计划(慢)和采取行动(快)、识别(快)和评估(慢)等。

这是 Aider AI 编码助手最近的一个例子,它展示了如何将 QwQ 作为架构师和 Qwen 2.5 作为编码器(有一个两步“架构师-代码”模式,允许为每个步骤选择不同的模型)结合起来提高编码性能。

它能否成功——很难说。最近,即使使用慢速模型,我们也未能在诸多挑战中取得显著进展。目前尚不清楚像o3这样的模型如何耐受幻觉。上下文窗口仍然太小。价格还在上涨……慢速模型虽然达到了更高水平的“独立”评估,但距离大规模实际应用(例如独立完成大型项目或模拟初级实习生)还很远。此外,快速模型,即参与者,似乎在计算机应用方面尚未取得进展,而莫拉维克悖论在计算机文员自动化方面仍然是一个挑战。

附言>

大约在 o3 发布的同时,我获得了 o1-mini 的 API 访问权限。我运行了自己的LLM 国际象棋评估,模拟了国际象棋比赛,并让模型与随机玩家对战。之前的 SOTA 模型连一场胜利都赢不了(我以为基准测试和 ARC 评估一样难),而o1-mini 的胜率高达 30%!现在我不那么怀疑了,毕竟其中可能存在一些道理。

文章来源:https://dev.to/maximsaplin/openai-o3-thinking-fast-and-slow-2g79
PREV
运行本地 LLM,CPU 与 GPU - 快速速度测试
NEXT
面向 JavaScript 初学者的 Deno 教程:什么是 JavaScript 引擎?什么是 JavaScript 运行时环境?为什么我们需要浏览器之外的运行时?NodeJS 有什么问题?什么是 Deno?