运行本地 LLM,CPU 与 GPU - 快速速度测试

2025-05-25

运行本地 LLM,CPU 与 GPU - 快速速度测试

这是我对本地 LLM 推理速度调查的第一部分。以下是第二部分第三部分。

5月12日更新

将所有评论结果汇总成表。将我自己的测量结果放在最上面,因为我可以控制环境,并且对测量的一致性更有信心(例如,使用正确的模型、相似的尺寸信息、确保设置的一致性等)。

规格 结果
苹果 M1 Pro CPU 14.8吨/秒
苹果 M1 Pro GPU 19.4吨/秒
AMD Ryzen 7 7840U CPU 7.3吨/秒
AMD Radeon 780M核显 5.0 吨/秒
AMD 锐龙 5 7535HS处理器 7.4吨/秒
GeForce RTX 4060 移动 OC GPU 37.9吨/秒
GeForce RTX 4060 移动版 OC FA GPU 39.7吨/秒
GeForce RTX 4090 OC(+180 核心,+1500 内存)GPU 108.5吨/秒
GeForce RTX 4090 OC FA(+180 核心,+1500 内存)GPU 119.1 千焦/秒
--- 评论者贡献 --- ---
M3 Pro 12核CPU 18GB CPU 17.9吨/秒
M3 Pro 12核CPU 18GB GPU 21.1吨/秒
iPad Pro M1 256GB,使用 LLM Farm 12.1吨/秒
AMD Ryzen 7 7800x3d处理器 9.7吨/秒
英特尔 i7 14700k处理器 9.8吨/秒
ROG Ally Ryzen Z1 Extreme,25W,CPU 5.3吨/秒
ROG Ally Ryzen Z1 Extreme,15W,CPU 5.05吨/秒
GeForce RTX 4080 OC GPU 78.1 吨/秒
Zotac Trinity 非超频 4080 Super GPU 71.6吨/秒
RTX 4070 TI 超级GPU 62吨/秒
RTX 4070 Super GPU 58.2 吨/秒
AMD 7900 XTX显卡 70.1 吨/秒
AMD RX 6800XT 16GB显卡 52.9吨/秒
Razer Blade 2021,RTX 3070 TI GPU 41.8吨/秒
Razer Blade 2021,Ryzen 5900HX CPU 7.0 吨/秒

一个小的观察,超频 RTX 4060 和 4090 我注意到 LM Studio/llama.cpp 并没有从核心速度中受益,但却从内存频率中受益。

3 月 14 日更新,测试了更多配置

如今,像LM Studio这样的工具使得在消费级硬件上查找、下载和运行大型语言模型变得非常容易。一个典型的量化 7B 模型(一个包含 70 亿个参数,每个参数压缩到 8 位甚至更小的模型)需要 4-7GB 的 RAM/VRAM,而这已经是普通笔记本电脑的配置了。

LM Studio 允许您选择使用 CPU 和 RAM还是GPU 和 VRAM 来运行模型。它还会在聊天对话框底部显示 tok/s 指标。

LM Studio,性能指标

我使用了5.94GB 版的微调版 Mistral 7B,并对两种方案(CPU 和 GPU)进行了快速测试,结果如下。我还添加了一些启用Flash Attention (FA)的案例(已在 LM Studio 的最新版本中添加到“模型初始化”类别下)。

令牌/秒

规格 结果
苹果 M1 Pro CPU 14.8吨/秒
苹果 M1 Pro GPU 19.4吨/秒
AMD Ryzen 7 7840U CPU 7.3吨/秒
AMD Radeon 780M核显 5.0 吨/秒
AMD 锐龙 5 7535HS处理器 7.4吨/秒
GeForce RTX 4060 移动 OC GPU 37.9吨/秒
AMD Ryzen 7 7800x3d处理器 9.7吨/秒
GeForce RTX 4080 OC GPU 78.1 吨/秒

硬件规格

  1. 2021 M1 Mac Book Pro,10 核 CPU(8 个性能和 2 个效率),16 核 iGPU,16GB RAM

  2. 2023 AOKZEO A1 Pro 游戏掌机,AMD Ryzen 7 7840U CPU(8 核 16 线程),32 GB LPDDR5X RAM,Radeon 780M iGPU(使用系统 RAM 作为 VRAM),TDP 为 30W

    • 3D Mark TimeSpy GPU得分 3000
    • 3D Mark TimeSpy CPU得分 7300
  3. 2023 MSI Bravo C7VF-039XRU 笔记本电脑,AMD Ryzen 5 7535HS CPU(6 核,12 线程,54W),16GB DDR RAM,GeForce RTX 4060(8GB VRAM,105W)

    • GPU 略微被低估/超频,3D Mark TimeSpy GPU得分 11300
    • 3D Mark TimeSpy CPU得分 7600
  4. 台式电脑,AMD Ryzen 7 7800x3d(8 核 16 线程,测试时功耗 78w),6200 DDR5,GeForce RTX 4080 16GB VRAM(略微超频,测试时功耗 228w)

截图

苹果

M1 CPU

M1 显卡

奥克佐伊

7840U

7.8亿

微星

7535HS
RTX 4060

台式电脑

7800x3d

RTX 4080

附言>

打字测试

我突然意识到,虽然普通人每分钟打字 30 到 40 个字,但 RTX 4060 以每秒 38 个令牌(大约每秒 30 个字)的速度实现了 1800 WPM。

聚苯硫醚>

感谢Sergey Zinchenko添加了第 4 个配置(
7800x3d + GeForce RTX 4080)

文章来源:https://dev.to/maximsaplin/running-local-llms-cpu-vs-gpu-a-quick-speed-test-2cjn
PREV
Netlify 与 Vercel:比较
NEXT
OpenAI o3——思考,快与慢