APIEval-20

访问

202

12615

一个用于测试API的AI代理开放基准

APIEval-20是一个面向API测试代理的黑盒基准测试。每个代理仅获取一个JSON模式和一个示例有效载荷，随后生成测试套件。我们针对部署了预设错误的真实API运行这些测试，并根据错误检测率、API覆盖率和效率进行评分。与基于大语言模型作为评判的评估不同，该评分完全客观：错误要么被捕获，要么未被捕获。任务涵盖认证、错误处理、分页、模式及多步骤流程。基准测试已在Hugging Face上开源。