运行本地 LLM，CPU 与 GPU - 快速速度测试

这是我对本地 LLM 推理速度调查的第一部分。以下是第二部分和第三部分。

5月12日更新

将所有评论结果汇总成表。将我自己的测量结果放在最上面，因为我可以控制环境，并且对测量的一致性更有信心（例如，使用正确的模型、相似的尺寸信息、确保设置的一致性等）。

一个小的观察，超频 RTX 4060 和 4090 我注意到 LM Studio/llama.cpp 并没有从核心速度中受益，但却从内存频率中受益。

3 月 14 日更新，测试了更多配置

如今，像LM Studio这样的工具使得在消费级硬件上查找、下载和运行大型语言模型变得非常容易。一个典型的量化 7B 模型（一个包含 70 亿个参数，每个参数压缩到 8 位甚至更小的模型）需要 4-7GB 的 RAM/VRAM，而这已经是普通笔记本电脑的配置了。

LM Studio 允许您选择使用 CPU 和 RAM还是GPU 和 VRAM 来运行模型。它还会在聊天对话框底部显示 tok/s 指标。

我使用了5.94GB 版的微调版 Mistral 7B，并对两种方案（CPU 和 GPU）进行了快速测试，结果如下。我还添加了一些启用Flash Attention (FA)的案例（已在 LM Studio 的最新版本中添加到“模型初始化”类别下）。

令牌/秒

2021 M1 Mac Book Pro，10 核 CPU（8 个性能和 2 个效率），16 核 iGPU，16GB RAM
2023 AOKZEO A1 Pro 游戏掌机，AMD Ryzen 7 7840U CPU（8 核 16 线程），32 GB LPDDR5X RAM，Radeon 780M iGPU（使用系统 RAM 作为 VRAM），TDP 为 30W
- 3D Mark TimeSpy GPU得分 3000
- 3D Mark TimeSpy CPU得分 7300
2023 MSI Bravo C7VF-039XRU 笔记本电脑，AMD Ryzen 5 7535HS CPU（6 核，12 线程，54W），16GB DDR RAM，GeForce RTX 4060（8GB VRAM，105W）
- GPU 略微被低估/超频，3D Mark TimeSpy GPU得分 11300
- 3D Mark TimeSpy CPU得分 7600
台式电脑，AMD Ryzen 7 7800x3d（8 核 16 线程，测试时功耗 78w），6200 DDR5，GeForce RTX 4080 16GB VRAM（略微超频，测试时功耗 228w）