一种基于RLHF的回复质量优化方法及装置

AITNT
正文
推荐专利
一种基于RLHF的回复质量优化方法及装置
申请号:CN202410781423
申请日期:2024-06-17
公开号:CN118626616A
公开日期:2024-09-10
类型:发明专利
摘要
一种基于RLHF的回复质量优化方法及装置,包括:基于原子信息粒度对语言模型生成的回复文本进行划分,得到多个原子信息单元;语言模型为利用RLHF及多个预先训练的奖励模型进行实时更新微调后的模型;将每个原子信息单元分别输入至多个奖励模型,得到每个原子信息单元对应的输出奖励值;其中,奖励模型的数量与人类偏好对应的原则的数量相等;基于每个原子信息单元对应输出奖励值得到所述回复文本在每一奖励模型上的得分。该回复质量优化方法实现了从多个RM出发,又考虑从最小语义单元的角度出发对回复质量进行评价,同时考虑回复质量评价的差异程度对于模型表现的影响,能够降低幻觉,提高有用性、无害型性以及模型训练的稳定性。
技术关键词
深度学习模型 优化装置 文本 模型训练模块 处理器 人类 计算机程序产品 数值 可读存储介质 存储器 策略 电子设备 指令 语义 数据
系统为您推荐了相关专利信息
1
基于虚拟阻抗的故障穿越方法、装置、设备和系统
故障穿越方法 有功功率 故障穿越系统 逆变器 传输线路
2
基于目标识别的库房管理方法、装置、设备及存储介质
物品标签信息 库房管理方法 计算机执行指令 异常状态 定位标签
3
一种基于多目标优化的风力电场微观选址方法和装置
风机 微观选址方法 指标 风力 电场
4
一种基于平面阵列近域探测的未爆弹分类及姿态解算方法
磁通门传感器 姿态解算方法 门阵列 阵列结构 神经网络模型训练
5
一种虚拟机调度方法、装置和计算设备
虚拟机调度方法 虚拟机调度装置 数据 逻辑 调度虚拟机
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号