摘要
一种基于RLHF的回复质量优化方法及装置,包括:基于原子信息粒度对语言模型生成的回复文本进行划分,得到多个原子信息单元;语言模型为利用RLHF及多个预先训练的奖励模型进行实时更新微调后的模型;将每个原子信息单元分别输入至多个奖励模型,得到每个原子信息单元对应的输出奖励值;其中,奖励模型的数量与人类偏好对应的原则的数量相等;基于每个原子信息单元对应输出奖励值得到所述回复文本在每一奖励模型上的得分。该回复质量优化方法实现了从多个RM出发,又考虑从最小语义单元的角度出发对回复质量进行评价,同时考虑回复质量评价的差异程度对于模型表现的影响,能够降低幻觉,提高有用性、无害型性以及模型训练的稳定性。
技术关键词
深度学习模型
优化装置
文本
模型训练模块
处理器
人类
计算机程序产品
数值
可读存储介质
存储器
策略
电子设备
指令
语义
数据
系统为您推荐了相关专利信息
故障穿越方法
有功功率
故障穿越系统
逆变器
传输线路
物品标签信息
库房管理方法
计算机执行指令
异常状态
定位标签
磁通门传感器
姿态解算方法
门阵列
阵列结构
神经网络模型训练
虚拟机调度方法
虚拟机调度装置
数据
逻辑
调度虚拟机