摘要
本发明公开了一种奖励模型训练方法、排序方法、装置、设备及介质,应用于计算机技术领域,包括:对训练数据集进行分组,得到预设数量个训练数据子集;利用预设数量个训练数据子集对待训练的奖励模型进行训练,得到预设数量个初始奖励模型;利用预设数量个初始奖励模型确定每个训练数据子集中训练数据对的置信度,基于置信度对训练数据对进行过滤,得到筛选后的训练数据集;置信度为训练数据对获得赞成票的比例;基于筛选后的训练数据集对初始奖励模型中的目标初始奖励模型进行训练得到目标奖励模型。本申请在对奖励模型进行训练的过程中,通过训练数据对的置信度,对训练数据对进行过滤,提高训练数据对的质量,防止影响奖励模型的拟合。
技术关键词
模型训练方法
数据
文本
排序方法
置信度阈值
模型训练装置
排序损失
可读存储介质
存储计算机程序
排序装置
命令
计算机程序产品
动态
过滤模块
参数
处理器
电子设备