‼️ 2025 年排名前 5 的开源 LLM 评估框架🎉🔥 TL:DR 1. DeepEval - LLM 评估框架 2. MLFlow LLM Evaluate - LLM 模型评估 3. RAGAs - 检索增强生成 (RAG) 管道的评估框架 4. Deepchecks 5. Arize AI Phoenix

2025-05-24

‼️ 2025 年五大开源 LLM 评估框架 🎉🔥

TL:DR

1. DeepEval——法学硕士(LLM)的评估框架

2. MLFlow LLM Evaluate - LLM 模型评估

3. RAGA——检索增强生成 (RAG) 流程的评估框架

4.深度检查

5. Arize AI Phoenix

TL:DR

“我觉得 LLM 评估解决方案比 LLM 评估存在的问题还多”,一家财富 500 强公司的人工智能主管 Dylan 说道。

我完全同意——似乎每周都有一个新的开源项目试图做与现有 30 多个框架相同的事情。说到底,Dylan 真正想要的是一个框架、包、库,无论你怎么称呼它,它都能量化他想要投入生产的 LLM(应用程序)的性能。

因此,作为曾经处于 Dylan 境地的人,我整理了一份清单,列出了 2025 年存在的前 5 个 LLM 评估框架 :) 😌

让我们开始吧!


1. DeepEval——法学硕士(LLM)的评估框架

DeepEval 是你最喜欢的评估框架中最受欢迎的。它占据榜首的原因如下:

  • 提供14 项以上 LLM 评估指标(涵盖 RAG 和微调用例),并根据 LLM 评估领域的最新研究进行更新。这些指标包括:
    • G-评估
    • 总结
    • 幻觉
    • 忠诚
    • 语境相关性
    • 答案相关性
    • 情境回忆
    • 语境精确度
    • 拉加斯
    • 偏见
    • 毒性

大多数指标都是不言自明的,这意味着 DeepEval 的指标会直接告诉您为什么指标分数不能更高。

  • 提供模块化组件,方便插拔和使用。您可以轻松混合搭配不同的指标,甚至可以根据需要使用 DeepEval 构建自己的评估流程。
  • 将评估视为单元测试。通过与Pytest 集成,DeepEval 已成为大多数开发人员熟悉的完整测试套件。
  • 允许您使用知识库作为上下文生成合成数据集,或从 CSV、JSON 或 Hugging face 加载数据集。
  • 提供一个具有慷慨免费层的托管平台,以便在生产中运行实时评估

通过 Pytest 集成:

from deepeval import assert_test
from deepeval.metrics import HallucinationMetric
from deepeval.test_case import LLMTestCase

test_case = LLMTestCase(
 input="How many evaluation metrics does DeepEval offers?",
 actual_output="14+ evaluation metrics",
 context=["DeepEval offers 14+ evaluation metrics"]
)
metric = HallucinationMetric(minimum_score=0.7)

def test_hallucination():
  assert_test(test_case, [metric])
Enter fullscreen mode Exit fullscreen mode

然后在 CLI 中:

deepeval test run test_file.py
Enter fullscreen mode Exit fullscreen mode

或者,不使用 Pytest(非常适合笔记本环境):

from deepeval import evaluate
...

evaluate([test_case], [metric])
Enter fullscreen mode Exit fullscreen mode

🌟 在 GitHub 上为 DeepEval 点赞


2. MLFlow LLM Evaluate - LLM 模型评估

MLFlow 是一个模块化且简单的软件包,允许您在自己的评估流程中运行评估。它提供 RAG 评估和 QA 评估。

MLFlow 的优势在于其直观的开发者体验。例如,以下是使用 MLFlow 进行评估的步骤:

results = mlflow.evaluate(
    model,
    eval_data,
    targets="ground_truth",
    model_type="question-answering",
)
Enter fullscreen mode Exit fullscreen mode

🌟 在 GitHub 上为 MLFlow 点赞

3. RAGA——检索增强生成 (RAG) 流程的评估框架

排名第三的是 RAGA,它是为 RAG 管道构建的。它们提供了 5 个核心指标:

  • 忠诚
  • 语境相关性
  • 答案相关性
  • 情境回忆
  • 语境精确度

这些指标构成了 RAGA 的最终得分。DeepEval 和 RAGA 的实现非常相似,但 RAGA 的指标并非一目了然,这使得调试不理想的结果变得更加困难。

RAGAs 位列第三,主要是因为它也将最新研究融入其 RAG 指标中,使用简单,但由于其功能有限且作为框架缺乏灵活性,因此排名并不更高。

from ragas import evaluate
from datasets import Dataset
import os

os.environ["OPENAI_API_KEY"] = "your-openai-key"

# prepare your huggingface dataset in the format
# Dataset({
#     features: ['question', 'contexts', 'answer', 'ground_truths'],
#     num_rows: 25
# })

dataset: Dataset

results = evaluate(dataset)
Enter fullscreen mode Exit fullscreen mode

🌟 在 GitHub 上为 RAGA 加星标


4.深度检查

Deepchecks 的突出之处在于它更侧重于评估 LLM 本身,而不是 LLM 系统/应用程序。

由于其复杂的开发人员体验,它在列表中的排名并不高(认真的说,请尝试自己设置并告诉我效果如何),但它的开源产品是独一无二的,因为它主要关注仪表板和可视化 UI,这使得用户可以轻松地将评估结果可视化。

图片描述

🌟 在 GitHub 上为 Deepchecks 点赞


5. Arize AI Phoenix

最后一个是 Arize AI,它通过对 LLM 轨迹的广泛可观察性来评估 LLM 申请。然而,它的局限性非常大,因为它只提供了三个评估标准:

  1. 质量保证正确性
  2. 幻觉
  3. 毒性

图片描述

🌟 GitHub 上的 Star Phoenix


以上就是 2025 年 GitHub 提供的顶级 LLM 评估框架列表。觉得我遗漏了什么吗?请在下方评论区留言告诉我!

感谢您的阅读,下次再见😊

文章来源:https://dev.to/guybuildingai/-top-5-open-source-llm-evaluation-frameworks-in-2024-98m
PREV
为什么你不应该使用 Web 框架
NEXT
成为更优秀的前端 Web 开发人员的关键