运行本地 LLM,CPU 与 GPU - 快速速度测试
5月12日更新
将所有评论结果汇总成表。将我自己的测量结果放在最上面,因为我可以控制环境,并且对测量的一致性更有信心(例如,使用正确的模型、相似的尺寸信息、确保设置的一致性等)。
规格 | 结果 |
---|---|
苹果 M1 Pro CPU | 14.8吨/秒 |
苹果 M1 Pro GPU | 19.4吨/秒 |
AMD Ryzen 7 7840U CPU | 7.3吨/秒 |
AMD Radeon 780M核显 | 5.0 吨/秒 |
AMD 锐龙 5 7535HS处理器 | 7.4吨/秒 |
GeForce RTX 4060 移动 OC GPU | 37.9吨/秒 |
GeForce RTX 4060 移动版 OC FA GPU | 39.7吨/秒 |
GeForce RTX 4090 OC(+180 核心,+1500 内存)GPU | 108.5吨/秒 |
GeForce RTX 4090 OC FA(+180 核心,+1500 内存)GPU | 119.1 千焦/秒 |
--- 评论者贡献 --- | --- |
M3 Pro 12核CPU 18GB CPU | 17.9吨/秒 |
M3 Pro 12核CPU 18GB GPU | 21.1吨/秒 |
iPad Pro M1 256GB,使用 LLM Farm | 12.1吨/秒 |
AMD Ryzen 7 7800x3d处理器 | 9.7吨/秒 |
英特尔 i7 14700k处理器 | 9.8吨/秒 |
ROG Ally Ryzen Z1 Extreme,25W,CPU | 5.3吨/秒 |
ROG Ally Ryzen Z1 Extreme,15W,CPU | 5.05吨/秒 |
GeForce RTX 4080 OC GPU | 78.1 吨/秒 |
Zotac Trinity 非超频 4080 Super GPU | 71.6吨/秒 |
RTX 4070 TI 超级GPU | 62吨/秒 |
RTX 4070 Super GPU | 58.2 吨/秒 |
AMD 7900 XTX显卡 | 70.1 吨/秒 |
AMD RX 6800XT 16GB显卡 | 52.9吨/秒 |
Razer Blade 2021,RTX 3070 TI GPU | 41.8吨/秒 |
Razer Blade 2021,Ryzen 5900HX CPU | 7.0 吨/秒 |
一个小的观察,超频 RTX 4060 和 4090 我注意到 LM Studio/llama.cpp 并没有从核心速度中受益,但却从内存频率中受益。
3 月 14 日更新,测试了更多配置
如今,像LM Studio这样的工具使得在消费级硬件上查找、下载和运行大型语言模型变得非常容易。一个典型的量化 7B 模型(一个包含 70 亿个参数,每个参数压缩到 8 位甚至更小的模型)需要 4-7GB 的 RAM/VRAM,而这已经是普通笔记本电脑的配置了。
LM Studio 允许您选择使用 CPU 和 RAM还是GPU 和 VRAM 来运行模型。它还会在聊天对话框底部显示 tok/s 指标。
我使用了5.94GB 版的微调版 Mistral 7B,并对两种方案(CPU 和 GPU)进行了快速测试,结果如下。我还添加了一些启用Flash Attention (FA)的案例(已在 LM Studio 的最新版本中添加到“模型初始化”类别下)。
令牌/秒
规格 | 结果 |
---|---|
苹果 M1 Pro CPU | 14.8吨/秒 |
苹果 M1 Pro GPU | 19.4吨/秒 |
AMD Ryzen 7 7840U CPU | 7.3吨/秒 |
AMD Radeon 780M核显 | 5.0 吨/秒 |
AMD 锐龙 5 7535HS处理器 | 7.4吨/秒 |
GeForce RTX 4060 移动 OC GPU | 37.9吨/秒 |
AMD Ryzen 7 7800x3d处理器 | 9.7吨/秒 |
GeForce RTX 4080 OC GPU | 78.1 吨/秒 |
硬件规格
-
2021 M1 Mac Book Pro,10 核 CPU(8 个性能和 2 个效率),16 核 iGPU,16GB RAM
-
2023 AOKZEO A1 Pro 游戏掌机,AMD Ryzen 7 7840U CPU(8 核 16 线程),32 GB LPDDR5X RAM,Radeon 780M iGPU(使用系统 RAM 作为 VRAM),TDP 为 30W
- 3D Mark TimeSpy GPU得分 3000
- 3D Mark TimeSpy CPU得分 7300
-
2023 MSI Bravo C7VF-039XRU 笔记本电脑,AMD Ryzen 5 7535HS CPU(6 核,12 线程,54W),16GB DDR RAM,GeForce RTX 4060(8GB VRAM,105W)
- GPU 略微被低估/超频,3D Mark TimeSpy GPU得分 11300
- 3D Mark TimeSpy CPU得分 7600
-
台式电脑,AMD Ryzen 7 7800x3d(8 核 16 线程,测试时功耗 78w),6200 DDR5,GeForce RTX 4080 16GB VRAM(略微超频,测试时功耗 228w)
截图
苹果
奥克佐伊
微星
台式电脑
附言>
我突然意识到,虽然普通人每分钟打字 30 到 40 个字,但 RTX 4060 以每秒 38 个令牌(大约每秒 30 个字)的速度实现了 1800 WPM。
聚苯硫醚>
感谢Sergey Zinchenko添加了第 4 个配置(
7800x3d + GeForce RTX 4080)