Deepseek R1 与 OpenAI o1

2025-06-07

Deepseek R1 与 OpenAI o1

Deepseek R1 现已发布 - 可通过Deepseek API或免费Deepseek 聊天获取。如果您关注 LLM/Gen AI 领域,您可能已经看到过一些标题、阅读过一些帖子或观看过一些视频来赞扬该模型:671B MoE 模型、公开权重以及大量关于训练过程的信息。它在许多基准测试中挑战了 OpenAI 的推理模型 (o1/o1-mini),而成本却只是后者的一小部分……甚至还有更小的 R1 “精简”版本可用于本地运行(通过 llama.cpp/ollama/lmstudio 等)。

自秋季以来,我一直在使用LLM Chess对模型进行压力测试,到目前为止,所有“推理”(或“思考”)模型都没有给我留下深刻印象(OpenAI 的 o1 除外)。我立即启动了基准测试,但不得不等待几天才能收集到足够的数据(似乎是因为 API 被限制了;速度非常慢)。

LLM Chess模拟了随机机器人与 LLM 的多局对弈。数千个提示、数百万个 token,每局游戏都是独一无二的(不像大多数评估游戏那样有固定的提示/过关条件)。它会在多次运行中收集并汇总多个指标。模型的性能评估指标包括推理能力(胜率/平局率)和可操控性/耐久性(模型未能遵循指令或因多次错误回复而退出游戏的频率)。

推理模型

在o1之前,法学硕士(LLM)在国际象棋中无法击败随机对手。GPT-4o?零胜。克劳德3.5——零胜。他们要么早早崩溃,要么将比赛拖入200步的局限(并自动指定平局)。

接下来是o1。OpenAI的“推理”模型打破了纪录:

  • o1-预览:胜率46.67%
  • o1-mini:30% 胜率

其他“推理”模型?2024年末o1发布后,围绕OpenAI保密性的争议接踵而至……关于隐藏“推理”代币(隐形但收费)的讨论,以及由于OpenAI怀疑有人试图破解其秘密而被封禁。当时,我们看到一些人工智能实验室试图通过引入“推理”模型来复制o1的成功。例如Qwen的QwQ和Sky T1。就连谷歌也在2024年12月发布了他们的实验性双子座思维模型。

所有其他“推理”或“思考”模型都无法与 OpenAI 模型相提并论——它们甚至连基本指令都难以应对,因为冗长的指令会淹没它们,几步之后就会退出游戏循环:游戏平均持续 2 到 14 步。例如,一个不具备推理能力、过时且老旧的 GPT-4 Turbo,平均持续了 192 步(之后因为将死而输给了随机玩家 :)。

那些2024年末的非OpenAI推理模型恰好是替代模型。这让我对R1的预期很低……

R1

Deepseek 的推理模型确实很有效。它确实取得了相当可观的胜利,同时错误率也保持在适度水平。

模型 胜利 抽奖 错误 代币/移动
o1-预览 46.67% 43.33% 3.74 2660
o1-迷你 30.00% 50.00% 2.34 1221
Deepseek-R1 22.58% 19.35% 18.63 4585

错误 - 每 1000 步 LLM 错误回复的数量

R1 表现不错,但不算出色。注意它与 o1 模型相比,平局次数少得多。这是因为 R1 违反了协议,违反了即时指令,或者产生了不规则移动的幻觉(因此输了)。它在遵循指令方面存在困难,并且容易受到即时变化随机导致游戏循环中断的影响。

以下是截至 2025 年 1 月的顶级非推理模型,供参考:

模型 胜利 ▼ 抽奖 错误 代币/移动
anthropic.claude-v3-5-十四行诗-v1 6.67% 80.00% 0.27 80.42
gpt-4o-2024-11-20 4.23% 87.32% 0.15 50.58
GPT-4-Turbo-2024-04-09 0.00% 93.33% 0.00 6.03
anthropic.claude-v3-opus 0.00% 83.33% 1.61 72.86

推理模型——独树一帜

除了相当多的胜利之外,推理模型还保持了正的平均材料差异。在国际象棋游戏中,材料数量是所有棋子的加权得分(例如,一个兵占1个材料单位,一个后占9个)。每位玩家的初始材料数量为39。评估系统会在每局游戏结束时计算材料差异——如果玩家丢失的棋子多于捕获的棋子,则差异为负。其他非推理模型(以及推理“替代模型”)的材料差异通常为负值或接近0(如果它们未能在游戏中继续前进打破循环)。

这是游戏结束时平均材料差异的数字:

模型 材料差异 平均游戏时长(步数)
o1-预览-2024-09-12 9.99 124.8
o1-mini-2024-09-12 10.77 142.73
deepseek-reasoner-r1 10.83 91.77
anthropic.claude-v3-5-十四行诗-v1 -4.48 183.38
gpt-4o-2024-11-20 -8.23 189.72
qwq-32b-预览@q4_k_m -0.07 7.97
gemini-2.0-flash-thinking-exp-1219 0.00 2.33

蒸馏 R1

我还测试了 Distilled R1 的几个量化版本。Deepseek 所做的是使用全尺寸 R1 模型的输出,对几个较小的 Qwen 2.5 和 Llama 3.1 模型(70B、14B、8B 等)进行了微调。这些模型应该已经获得了推理能力。<think></think>输出中还有一个特殊部分,将所有推理标记与最终答案隔离开来(这是早期思维模型忽略的重要一点)。

他们做得并不好:

模型 胜利 ▼ 抽奖 错误 代币
deepseek-r1-distill-qwen-32b@q4_k_m 0.00% 0.00% 727.27 2173.83
deepseek-r1-distill-qwen-14b@q8_0 0.00% 0.00% 1153.85 3073.06

此外,我注意到这些模型有时无法正确打开和关闭思考标签(缺少打开<think>)。

附言>

R1 发布后的第二天,谷歌还对 Gemini Thinking 进行了更新!

它比12月版好多了!至少它现在可以操控了,一局游戏可以持续大约40步。他们还增加了思考部分的分离,避免了用推理标记来增加响应量。而且,它还是一个思考的替代物……

模型 胜利 ▼ 抽奖 错误 代币
gemini-2.0-flash-thinking-exp-01-21 0.00% 6.06% 5.97 17.77
gemini-2.0-flash-thinking-exp-1219 0.00% 0.00% 1285.71 724.54

奇怪的是,大多数游戏退出都是由于服务器错误(例如某些版权过滤器)或获得空的完成而发生的 - 模型肯定存在稳定性问题。

文章来源:https://dev.to/maximsaplin/deepseek-r1-vs-openai-o1-1ijm
PREV
使用常规提交增强你的 git 日志
NEXT
如何在生产中启动 Node.js 服务器?