Deepseek R1 与 OpenAI o1

Deepseek R1 现已发布 - 可通过Deepseek API或免费Deepseek 聊天获取。如果您关注 LLM/Gen AI 领域，您可能已经看到过一些标题、阅读过一些帖子或观看过一些视频来赞扬该模型：671B MoE 模型、公开权重以及大量关于训练过程的信息。它在许多基准测试中挑战了 OpenAI 的推理模型 (o1/o1-mini)，而成本却只是后者的一小部分……甚至还有更小的 R1 “精简”版本可用于本地运行（通过 llama.cpp/ollama/lmstudio 等）。

自秋季以来，我一直在使用LLM Chess对模型进行压力测试，到目前为止，所有“推理”（或“思考”）模型都没有给我留下深刻印象（OpenAI 的 o1 除外）。我立即启动了基准测试，但不得不等待几天才能收集到足够的数据（似乎是因为 API 被限制了；速度非常慢）。

LLM Chess模拟了随机机器人与 LLM 的多局对弈。数千个提示、数百万个 token，每局游戏都是独一无二的（不像大多数评估游戏那样有固定的提示/过关条件）。它会在多次运行中收集并汇总多个指标。模型的性能评估指标包括推理能力（胜率/平局率）和可操控性/耐久性（模型未能遵循指令或因多次错误回复而退出游戏的频率）。

推理模型

在o1之前，法学硕士（LLM）在国际象棋中无法击败随机对手。GPT-4o？零胜。克劳德3.5——零胜。他们要么早早崩溃，要么将比赛拖入200步的局限（并自动指定平局）。

接下来是o1。OpenAI的“推理”模型打破了纪录：

o1-预览：胜率46.67%
o1-mini：30% 胜率

其他“推理”模型？2024年末o1发布后，围绕OpenAI保密性的争议接踵而至……关于隐藏“推理”代币（隐形但收费）的讨论，以及由于OpenAI怀疑有人试图破解其秘密而被封禁。当时，我们看到一些人工智能实验室试图通过引入“推理”模型来复制o1的成功。例如Qwen的QwQ和Sky T1。就连谷歌也在2024年12月发布了他们的实验性双子座思维模型。

所有其他“推理”或“思考”模型都无法与 OpenAI 模型相提并论——它们甚至连基本指令都难以应对，因为冗长的指令会淹没它们，几步之后就会退出游戏循环：游戏平均持续 2 到 14 步。例如，一个不具备推理能力、过时且老旧的 GPT-4 Turbo，平均持续了 192 步（之后因为将死而输给了随机玩家 :)。

那些2024年末的非OpenAI推理模型恰好是替代模型。这让我对R1的预期很低……

R1

Deepseek 的推理模型确实很有效。它确实取得了相当可观的胜利，同时错误率也保持在适度水平。

模型	胜利	抽奖	错误	代币/移动
o1-预览	46.67%	43.33%	3.74	2660
o1-迷你	30.00%	50.00%	2.34	1221
Deepseek-R1	22.58%	19.35%	18.63	4585

错误 - 每 1000 步 LLM 错误回复的数量

R1 表现不错，但不算出色。注意它与 o1 模型相比，平局次数少得多。这是因为 R1 违反了协议，违反了即时指令，或者产生了不规则移动的幻觉（因此输了）。它在遵循指令方面存在困难，并且容易受到即时变化随机导致游戏循环中断的影响。

以下是截至 2025 年 1 月的顶级非推理模型，供参考：

模型	胜利 ▼	抽奖	错误	代币/移动
anthropic.claude-v3-5-十四行诗-v1	6.67%	80.00%	0.27	80.42
gpt-4o-2024-11-20	4.23%	87.32%	0.15	50.58
GPT-4-Turbo-2024-04-09	0.00%	93.33%	0.00	6.03
anthropic.claude-v3-opus	0.00%	83.33%	1.61	72.86

推理模型——独树一帜

除了相当多的胜利之外，推理模型还保持了正的平均材料差异。在国际象棋游戏中，材料数量是所有棋子的加权得分（例如，一个兵占1个材料单位，一个后占9个）。每位玩家的初始材料数量为39。评估系统会在每局游戏结束时计算材料差异——如果玩家丢失的棋子多于捕获的棋子，则差异为负。其他非推理模型（以及推理“替代模型”）的材料差异通常为负值或接近0（如果它们未能在游戏中继续前进打破循环）。

这是游戏结束时平均材料差异的数字：

模型	材料差异	平均游戏时长（步数）
o1-预览-2024-09-12	9.99	124.8
o1-mini-2024-09-12	10.77	142.73
deepseek-reasoner-r1	10.83	91.77
anthropic.claude-v3-5-十四行诗-v1	-4.48	183.38
gpt-4o-2024-11-20	-8.23	189.72
qwq-32b-预览@q4_k_m	-0.07	7.97
gemini-2.0-flash-thinking-exp-1219	0.00	2.33

蒸馏 R1

我还测试了 Distilled R1 的几个量化版本。Deepseek 所做的是使用全尺寸 R1 模型的输出，对几个较小的 Qwen 2.5 和 Llama 3.1 模型（70B、14B、8B 等）进行了微调。这些模型应该已经获得了推理能力。<think></think>输出中还有一个特殊部分，将所有推理标记与最终答案隔离开来（这是早期思维模型忽略的重要一点）。

他们做得并不好：

模型	胜利 ▼	抽奖	错误	代币
deepseek-r1-distill-qwen-32b@q4_k_m	0.00%	0.00%	727.27	2173.83
deepseek-r1-distill-qwen-14b@q8_0	0.00%	0.00%	1153.85	3073.06

此外，我注意到这些模型有时无法正确打开和关闭思考标签（缺少打开<think>）。

附言>

R1 发布后的第二天，谷歌还对 Gemini Thinking 进行了更新！

它比12月版好多了！至少它现在可以操控了，一局游戏可以持续大约40步。他们还增加了思考部分的分离，避免了用推理标记来增加响应量。而且，它还是一个思考的替代物……

模型	胜利 ▼	抽奖	错误	代币
gemini-2.0-flash-thinking-exp-01-21	0.00%	6.06%	5.97	17.77
gemini-2.0-flash-thinking-exp-1219	0.00%	0.00%	1285.71	724.54

奇怪的是，大多数游戏退出都是由于服务器错误（例如某些版权过滤器）或获得空的完成而发生的 - 模型肯定存在稳定性问题。

文章来源：https://dev.to/maximsaplin/deepseek-r1-vs-openai-o1-1ijm