一种基于RLHF的回复质量优化方法及装置

正文

推荐专利

申请号：CN202410781423

申请日期：2024-06-17

公开号：CN118626616A

公开日期：2024-09-10

类型：发明专利

摘要

一种基于RLHF的回复质量优化方法及装置，包括：基于原子信息粒度对语言模型生成的回复文本进行划分，得到多个原子信息单元；语言模型为利用RLHF及多个预先训练的奖励模型进行实时更新微调后的模型；将每个原子信息单元分别输入至多个奖励模型，得到每个原子信息单元对应的输出奖励值；其中，奖励模型的数量与人类偏好对应的原则的数量相等；基于每个原子信息单元对应输出奖励值得到所述回复文本在每一奖励模型上的得分。该回复质量优化方法实现了从多个RM出发，又考虑从最小语义单元的角度出发对回复质量进行评价，同时考虑回复质量评价的差异程度对于模型表现的影响，能够降低幻觉，提高有用性、无害型性以及模型训练的稳定性。

技术关键词

深度学习模型优化装置文本模型训练模块处理器人类计算机程序产品数值可读存储介质存储器策略电子设备指令语义数据

系统为您推荐了相关专利信息

基于虚拟阻抗的故障穿越方法、装置、设备和系统

故障穿越方法有功功率故障穿越系统逆变器传输线路

基于目标识别的库房管理方法、装置、设备及存储介质

物品标签信息库房管理方法计算机执行指令异常状态定位标签

一种基于多目标优化的风力电场微观选址方法和装置

风机微观选址方法指标风力电场

一种基于平面阵列近域探测的未爆弹分类及姿态解算方法

磁通门传感器姿态解算方法门阵列阵列结构神经网络模型训练

一种虚拟机调度方法、装置和计算设备

虚拟机调度方法虚拟机调度装置数据逻辑调度虚拟机

一种基于RLHF的回复质量优化方法及装置

站点导航

APP 下载