摘要
本公开实施例提供一种复杂指令遵循能力评测方法和装置、计算设备、存储介质。复杂指令遵循能力评测方法包括:将测试样本中的复杂指令输入到待评价大语言模型中,得到回复;分别基于各个评分问题处理回复,得到对应的局部评分;基于各个评分问题对应的局部评分和各个评分问题的关联关系对各个局部评分进行修正,得到全局评分;基于全局评分得到结果评分。因为全局评分符合评分问题全局,并且各个评分问题与复杂指令中的约束或者约束组合关系有对应关系,所以全局评分符合复杂指令中的对应约束,使得得分结果也就更符合复杂指令全局。采用本公开实施例方案得到的评价结果与人类评价结果的一致性提高,评价结果的可信性也就提高。
技术关键词
评分方法
能力评测方法
大语言模型
关系
指令
样本
处理器
评测装置
存储计算机程序
验证规则
可读存储介质
存储器
节点
语义
人类