摘要
本实施例提供了一种大模型评估方法,该方法通过获取通过目标大模型问答所得的对话数据;然后基于问答对话之间的跟随关系依次对问答对话进行指令抽取得到对话指令,并对对话指令进行打分得到第一得分;并提取问答对话对应的答案信息,并将答案信息与前序答案信息进行比对得到第二得分;且对答案信息进行回复质量评价,以得到第三得分;进而结合第一得分、第二得分以及第三得分得到目标得分,以通过目标得分对目标大模型进行评估。从而实现多维度的评估过程,由于针对多轮次对话的特点进行多维度的指标配置,实现了自动化评估,可以大幅降低人工的参与度,减少因个人主观看法造成的偏差,提高大模型评估的准确性。
技术关键词
答案
模型评估方法
指令
层次结构模型
文本
服务端
数据
语义向量
客户端
评估设备
计算机程序产品
评估装置
评估系统
序列
关系
处理器
逻辑
元素
线性
偏差
系统为您推荐了相关专利信息
车辆终端
压缩算法
数据压缩方法
期望传输速率
参数
交易优化方法
电力存储设备
波动特征
多元回归分析
曲线特征
索引推荐方法
抽象语法树
查询意图
性能指标数据
文本