摘要
本申请提供了一种大模型的评测方法、装置、电子设备及可读存储介质,通过获取多任务、多场景下的评测集;将评测用例中的问题输入到待评测大模型中,生成实际评测答案;基于生成的实际评测答案、预期答案及多维度评测指标构建评测提示词。将评测提示词输入到预训练的裁判模型中得到待评测大模型的评测得分。本发明通过全面覆盖多种评测场景、多维度评估、高效自动化的评测方式、有效解决了传统评测方法存在的不足,能够为大模型的开发、上线和优化提供更精准、更高效、更实用的评测支持。
技术关键词
答案
评测方法
多场景
多任务
动态权重分配
指标
参数
强化学习算法
表头结构
通信接口
电子设备
评测装置
可读存储介质
存储器
处理器
遗传算法
计算机
数据
系统为您推荐了相关专利信息
知识图谱问答方法
实体
知识图谱问答系统
逻辑
大语言模型
联合识别方法
环境感知数据
车辆行驶状态
交互特征
序列特征
人机验证方法
统计特征
水印方法
人机验证装置
答案