Deepseek R1 与 OpenAI o1
Deepseek R1 现已发布 - 可通过Deepseek API或免费Deepseek 聊天获取。如果您关注 LLM/Gen AI 领域,您可能已经看到过一些标题、阅读过一些帖子或观看过一些视频来赞扬该模型:671B MoE 模型、公开权重以及大量关于训练过程的信息。它在许多基准测试中挑战了 OpenAI 的推理模型 (o1/o1-mini),而成本却只是后者的一小部分……甚至还有更小的 R1 “精简”版本可用于本地运行(通过 llama.cpp/ollama/lmstudio 等)。
自秋季以来,我一直在使用LLM Chess对模型进行压力测试,到目前为止,所有“推理”(或“思考”)模型都没有给我留下深刻印象(OpenAI 的 o1 除外)。我立即启动了基准测试,但不得不等待几天才能收集到足够的数据(似乎是因为 API 被限制了;速度非常慢)。
LLM Chess模拟了随机机器人与 LLM 的多局对弈。数千个提示、数百万个 token,每局游戏都是独一无二的(不像大多数评估游戏那样有固定的提示/过关条件)。它会在多次运行中收集并汇总多个指标。模型的性能评估指标包括推理能力(胜率/平局率)和可操控性/耐久性(模型未能遵循指令或因多次错误回复而退出游戏的频率)。
推理模型
在o1之前,法学硕士(LLM)在国际象棋中无法击败随机对手。GPT-4o?零胜。克劳德3.5——零胜。他们要么早早崩溃,要么将比赛拖入200步的局限(并自动指定平局)。
接下来是o1。OpenAI的“推理”模型打破了纪录:
- o1-预览:胜率46.67%
- o1-mini:30% 胜率
其他“推理”模型?2024年末o1发布后,围绕OpenAI保密性的争议接踵而至……关于隐藏“推理”代币(隐形但收费)的讨论,以及由于OpenAI怀疑有人试图破解其秘密而被封禁。当时,我们看到一些人工智能实验室试图通过引入“推理”模型来复制o1的成功。例如Qwen的QwQ和Sky T1。就连谷歌也在2024年12月发布了他们的实验性双子座思维模型。
所有其他“推理”或“思考”模型都无法与 OpenAI 模型相提并论——它们甚至连基本指令都难以应对,因为冗长的指令会淹没它们,几步之后就会退出游戏循环:游戏平均持续 2 到 14 步。例如,一个不具备推理能力、过时且老旧的 GPT-4 Turbo,平均持续了 192 步(之后因为将死而输给了随机玩家 :)。
那些2024年末的非OpenAI推理模型恰好是替代模型。这让我对R1的预期很低……
R1
Deepseek 的推理模型确实很有效。它确实取得了相当可观的胜利,同时错误率也保持在适度水平。
模型 | 胜利 | 抽奖 | 错误 | 代币/移动 |
---|---|---|---|---|
o1-预览 | 46.67% | 43.33% | 3.74 | 2660 |
o1-迷你 | 30.00% | 50.00% | 2.34 | 1221 |
Deepseek-R1 | 22.58% | 19.35% | 18.63 | 4585 |
错误 - 每 1000 步 LLM 错误回复的数量
R1 表现不错,但不算出色。注意它与 o1 模型相比,平局次数少得多。这是因为 R1 违反了协议,违反了即时指令,或者产生了不规则移动的幻觉(因此输了)。它在遵循指令方面存在困难,并且容易受到即时变化随机导致游戏循环中断的影响。
以下是截至 2025 年 1 月的顶级非推理模型,供参考:
模型 | 胜利 ▼ | 抽奖 | 错误 | 代币/移动 |
---|---|---|---|---|
anthropic.claude-v3-5-十四行诗-v1 | 6.67% | 80.00% | 0.27 | 80.42 |
gpt-4o-2024-11-20 | 4.23% | 87.32% | 0.15 | 50.58 |
GPT-4-Turbo-2024-04-09 | 0.00% | 93.33% | 0.00 | 6.03 |
anthropic.claude-v3-opus | 0.00% | 83.33% | 1.61 | 72.86 |
推理模型——独树一帜
除了相当多的胜利之外,推理模型还保持了正的平均材料差异。在国际象棋游戏中,材料数量是所有棋子的加权得分(例如,一个兵占1个材料单位,一个后占9个)。每位玩家的初始材料数量为39。评估系统会在每局游戏结束时计算材料差异——如果玩家丢失的棋子多于捕获的棋子,则差异为负。其他非推理模型(以及推理“替代模型”)的材料差异通常为负值或接近0(如果它们未能在游戏中继续前进打破循环)。
这是游戏结束时平均材料差异的数字:
模型 | 材料差异 | 平均游戏时长(步数) |
---|---|---|
o1-预览-2024-09-12 | 9.99 | 124.8 |
o1-mini-2024-09-12 | 10.77 | 142.73 |
deepseek-reasoner-r1 | 10.83 | 91.77 |
anthropic.claude-v3-5-十四行诗-v1 | -4.48 | 183.38 |
gpt-4o-2024-11-20 | -8.23 | 189.72 |
qwq-32b-预览@q4_k_m | -0.07 | 7.97 |
gemini-2.0-flash-thinking-exp-1219 | 0.00 | 2.33 |
蒸馏 R1
我还测试了 Distilled R1 的几个量化版本。Deepseek 所做的是使用全尺寸 R1 模型的输出,对几个较小的 Qwen 2.5 和 Llama 3.1 模型(70B、14B、8B 等)进行了微调。这些模型应该已经获得了推理能力。<think></think>
输出中还有一个特殊部分,将所有推理标记与最终答案隔离开来(这是早期思维模型忽略的重要一点)。
他们做得并不好:
模型 | 胜利 ▼ | 抽奖 | 错误 | 代币 |
---|---|---|---|---|
deepseek-r1-distill-qwen-32b@q4_k_m | 0.00% | 0.00% | 727.27 | 2173.83 |
deepseek-r1-distill-qwen-14b@q8_0 | 0.00% | 0.00% | 1153.85 | 3073.06 |
此外,我注意到这些模型有时无法正确打开和关闭思考标签(缺少打开<think>
)。
附言>
R1 发布后的第二天,谷歌还对 Gemini Thinking 进行了更新!
它比12月版好多了!至少它现在可以操控了,一局游戏可以持续大约40步。他们还增加了思考部分的分离,避免了用推理标记来增加响应量。而且,它还是一个思考的替代物……
模型 | 胜利 ▼ | 抽奖 | 错误 | 代币 |
---|---|---|---|---|
gemini-2.0-flash-thinking-exp-01-21 | 0.00% | 6.06% | 5.97 | 17.77 |
gemini-2.0-flash-thinking-exp-1219 | 0.00% | 0.00% | 1285.71 | 724.54 |
奇怪的是,大多数游戏退出都是由于服务器错误(例如某些版权过滤器)或获得空的完成而发生的 - 模型肯定存在稳定性问题。
文章来源:https://dev.to/maximsaplin/deepseek-r1-vs-openai-o1-1ijm