大语言模型的自我批评能力评估方法

正文

推荐专利

大语言模型的自我批评能力评估方法

申请号：CN202510190720

申请日期：2025-02-20

公开号：CN120045901A

公开日期：2025-05-27

类型：发明专利

摘要

本发明涉及人工智能技术领域，公开了一种大语言模型自我批评能力评估方法，包括：数据集构造阶段；从多个工具调用数据集中收集工具调用轨迹和接口文档；对错误进行分类并扩展；模型内驱错误通过大语言模型模拟扩展，环境外部错误通过重复接口调用生成或通过大语言模型模拟扩展；根据接口的可访问状态来收集工具对模型内驱错误的响应；评测指标设计阶段：引入步骤级细粒度的评估任务；设计多维度评测指标，通过对多维度评测指标加权求和，得到大语言模型总体自我批评能力评分。本发明通过模拟真实世界中可能出现的各种工具使用错误，包括模型内驱错误和环境外部错误，来评估大语言模型在这些复杂场景下的表现。

技术关键词

大语言模型能力评估方法收集工具接口缓存系统指标轨迹数据验证识别工具模拟真实世界模拟器答案人工智能技术基础基准场景阶段参数格式

系统为您推荐了相关专利信息

一种基于大语言模型和知识图谱的交互式作诗系统及方法

诗歌大语言模型图谱主题节点

测试用例生成方法、装置、设备及介质

大语言模型生成方法生成测试用例测试用例生成装置计算机设备

一种基于SIP软交换的通讯媒体交换方法和系统

媒体交换方法媒体处理单元媒体交换系统智能语音交互录音服务器

基于查找表的物体检测方法和装置

物体检测模型物体检测方法输入查找表元素浮点数

密码基础设施系统和基于密码基础设施系统的通信方法

基础设施系统密钥管理系统量子密钥分发网络加密算法签名算法

大语言模型的自我批评能力评估方法

站点导航

APP 下载