MCP Evals

MCP Evals是一个用于评估MCP工具实现的Node.js包和GitHub Action，通过基于LLM的评分来确保MCP服务器的工具正常工作并表现良好。

开发者工具人工智能聊天机器人 #工具评估 #LLM评分 #自动化测试 #GitHub集成本地 .TypeScript

评分 : 2.5分

下载量 : 15

更新时间 : 2025-04-29

什么是MCP Evals?

MCP Evals是一个评估工具，帮助开发者测试和验证他们的Model Context Protocol (MCP)服务器工具的功能和性能。它使用大型语言模型(LLM)来自动评分，确保工具按预期工作。

如何使用MCP Evals?

您可以通过Node.js包或GitHub Action两种方式使用MCP Evals。只需创建评估配置文件，运行评估，即可获得详细的评分报告。

适用场景

适用于开发MCP工具的团队需要持续验证工具质量，或在CI/CD流程中自动检查工具性能的场景。

主要功能

LLM自动评分使用GPT-4等大型语言模型自动评估工具响应质量

多维度评估提供准确性、完整性、相关性、清晰度和推理能力五个维度的评分

GitHub集成作为GitHub Action自动运行，并将结果反馈到Pull Request

优势与局限性

优势

自动化评估流程，节省人工测试时间

提供详细的评分和反馈，帮助改进工具

与CI/CD流程无缝集成

开源项目可享受OpenAI的免费额度

局限性

依赖OpenAI API，需要网络连接

评估结果可能受LLM主观性影响

需要一定的配置工作

如何使用

安装

作为Node.js包或GitHub Action安装

创建评估文件

创建一个TypeScript文件定义您的评估配置

运行评估

通过CLI或GitHub Action运行评估

使用案例

天气工具评估评估天气查询工具返回信息的准确性和完整性

知识检索评估评估知识检索工具返回信息的准确性和相关性

常见问题

我需要OpenAI API密钥吗?

评估使用什么模型?

如何解读评分结果?

🚀 MCP 评测工具

MCP 评测工具是一个 Node.js 包和 GitHub Action，可借助基于大语言模型（LLM）的评分来评估 MCP（模型上下文协议）工具的实现情况，确保您的 MCP 服务器工具能正确且高效地运行。

🚀 快速开始

MCP 评测工具提供了便捷的使用方式，您既可以将其作为 Node.js 包使用，也能通过 GitHub Action 集成到工作流中。

✨ 主要特性

多方式集成：支持作为 Node.js 包和 GitHub Action 使用，满足不同场景需求。
基于 LLM 评分：利用大语言模型的评分机制，对 MCP 工具实现进行评估。
详细评测结果：每个评测返回包含准确性、完整性等多维度评分及综合评价的结果。

📦 安装指南

作为 Node.js 包

在项目中执行以下命令进行安装：

npm install mcp-evals

作为 GitHub Action

在工作流文件中添加以下内容：

name: 运行 MCP 评测
on:
  pull_request:
    types: [opened, synchronize, reopened]
jobs:
  evaluate:
    runs-on: ubuntu-latest
    permissions:
      contents: read
      pull-requests: write
    steps:
      - uses: actions/checkout@v4
      
      - name: 设置 Node.js
        uses: actions/setup-node@v4
        with:
          node-version: '20'
          
      - name: 安装依赖项
        run: npm install
        
      - name: 运行 MCP 评测
        uses: mclenhard/mcp-evals@v1.0.9
        with:
          evals_path: 'src/evals/evals.ts'
          server_path: 'src/index.ts'
          openai_api_key: ${{ secrets.OPENAI_API_KEY }}
          model: 'gpt-4'  # 可选，默认为 gpt-4

💻 使用示例

基础用法

1. 创建您的评测文件

创建一个文件（例如 evals.ts），导出您的评测配置：

import { EvalConfig } from 'mcp-evals';
import { openai } from "@ai-sdk/openai";
import { grade, EvalFunction} from "mcp-evals";

const weatherEval: EvalFunction = {
    name: 'Weather Tool Evaluation',
    description: 'Evaluates the accuracy and completeness of weather information retrieval',
    run: async () => {
      const result = await grade(openai("gpt-4"), "What is the weather in New York?");
      return JSON.parse(result);
    }
};
const config: EvalConfig = {
    model: openai("gpt-4"),
    evals: [weatherEval]
  };
  
  export default config;
  
  export const evals = [
    weatherEval,
    // 在这里添加其他评测
];

2. 运行评测

作为 Node.js 包

您可以使用 CLI 运行评测：

npx mcp-eval path/to/your/evals.ts path/to/your/server.ts

作为 GitHub Action

该操作将自动执行以下步骤：

运行您的评测
在 PR 上发布结果评论
如果 PR 被更新，则更新评论

📚 详细文档

评测结果

每个评测返回一个具有以下结构的对象：

interface EvalResult {
  accuracy: number;        // 评分范围为 1-5
  completeness: number;    // 评分范围为 1-5
  relevance: number;       // 评分范围为 1-5
  clarity: number;         // 评分范围为 1-5
  reasoning: number;       // 评分范围为 1-5
  overall_comments: string; // 强项和弱点的摘要
}