摘要
本发明涉及人工智能技术领域,公开了一种大语言模型自我批评能力评估方法,包括:数据集构造阶段;从多个工具调用数据集中收集工具调用轨迹和接口文档;对错误进行分类并扩展;模型内驱错误通过大语言模型模拟扩展,环境外部错误通过重复接口调用生成或通过大语言模型模拟扩展;根据接口的可访问状态来收集工具对模型内驱错误的响应;评测指标设计阶段:引入步骤级细粒度的评估任务;设计多维度评测指标,通过对多维度评测指标加权求和,得到大语言模型总体自我批评能力评分。本发明通过模拟真实世界中可能出现的各种工具使用错误,包括模型内驱错误和环境外部错误,来评估大语言模型在这些复杂场景下的表现。
技术关键词
大语言模型
能力评估方法
收集工具
接口
缓存系统
指标
轨迹
数据验证
识别工具
模拟真实世界
模拟器
答案
人工智能技术
基础
基准
场景
阶段
参数
格式
系统为您推荐了相关专利信息
大语言模型
生成方法
生成测试用例
测试用例生成装置
计算机设备
媒体交换方法
媒体处理单元
媒体交换系统
智能语音交互
录音服务器
物体检测模型
物体检测方法
输入查找表
元素
浮点数
基础设施系统
密钥管理系统
量子密钥分发网络
加密算法
签名算法