登录成功后会自动刷新界面
一个用于测试API的AI代理开放基准
APIEval-20是一个面向API测试代理的黑盒基准测试。每个代理仅获取一个JSON模式和一个示例有效载荷,随后生成测试套件。我们针对部署了预设错误的真实API运行这些测试,并根据错误检测率、API覆盖率和效率进行评分。与基于大语言模型作为评判的评估不同,该评分完全客观:错误要么被捕获,要么未被捕获。任务涵盖认证、错误处理、分页、模式及多步骤流程。基准测试已在Hugging Face上开源。