摘要
本说明书实施例公开了用于评测大语言模型的相关方法及相关装置。方法包括基于待测模型针对评测题目的初始答案,获取待测模型针对评测题目的初始评测结果,评测题目具有对应的参考答案,参考答案包括参考推理结果以及一个或多个参考推理步骤,初始评测结果包括推理正确、推理错误中的任一项,推理错误包括初始错误推理步骤以及对应于初始错误推理步骤的补充知识信息。基于补充知识信息,获取待测模型针对评测题目的增强答案。方法还包括基于参考答案、初始答案以及增强答案,获取待测模型针对评测题目的增强评测结果,增强评测结果包括知识不足错误以及推理不足错误,能够解耦大语言模型的知识能力和推理能力。
技术关键词
答案
大语言模型
记忆
智能模型
知识点
存储程序指令
计算机程序产品
处理器
模块
关键词
存储器
电子设备
场景
系统为您推荐了相关专利信息
网络资源数据
资源调度方法
混合整数线性规划
深度强化学习模型
动态资源分配
渗透测试方法
渗透测试工具
任务调度
语义向量
列表
应急控制方法
北斗卫星系统
风险预测模型
北斗短报文
时序演化规律