摘要
本发明公开了一种奖励模型的训练方法、大语言模型的优化方法及相关,奖励模型的训练方法包括:获取偏好训练样本对以及待训练的奖励模型,偏好训练样本对包括首选响应样本与非首选响应样本;基于待训练的奖励模型计算首选响应样本与非首选响应样本的奖励分数差;基于奖励分数差以及首选响应样本、非首选响应样本二者之间的语义关联度构建成本矩阵;基于成本矩阵,计算损失边际;基于损失边际计算得到带边际的成对偏好损失值,并以最小化基于带边际的损失值为优化目标对待训练的奖励模型的参数进行更新,得到训练好的奖励模型。提升了模型对困难样本的学习能力和整体泛化性能,避免过度依赖简单样本,进而改进大语言模型在复杂任务中的生成质量。
技术关键词
样本
语义关联度
计算机可读指令
大语言模型
矩阵
处理器
训练装置
计算机设备
模块
可读存储介质
存储器
参数
关系
信号
策略
系统为您推荐了相关专利信息
大语言模型
启发式规则
多任务
结构化自然语言
新型沸石材料
情感分析模型
疼痛模型
问答方法
模板
计算机存储介质
批阅系统
量表
批阅方法
自然语言生成技术
计算机程序代码