一种奖励模型训练方法、排序方法、装置、设备及介质

正文

推荐专利

申请号：CN202411627948

申请日期：2024-11-14

公开号：CN119513604A

公开日期：2025-02-25

类型：发明专利

摘要

本发明公开了一种奖励模型训练方法、排序方法、装置、设备及介质，应用于计算机技术领域，包括：对训练数据集进行分组，得到预设数量个训练数据子集；利用预设数量个训练数据子集对待训练的奖励模型进行训练，得到预设数量个初始奖励模型；利用预设数量个初始奖励模型确定每个训练数据子集中训练数据对的置信度，基于置信度对训练数据对进行过滤，得到筛选后的训练数据集；置信度为训练数据对获得赞成票的比例；基于筛选后的训练数据集对初始奖励模型中的目标初始奖励模型进行训练得到目标奖励模型。本申请在对奖励模型进行训练的过程中，通过训练数据对的置信度，对训练数据对进行过滤，提高训练数据对的质量，防止影响奖励模型的拟合。

技术关键词

模型训练方法数据文本排序方法置信度阈值模型训练装置排序损失可读存储介质存储计算机程序排序装置命令计算机程序产品动态过滤模块参数处理器电子设备

一种奖励模型训练方法、排序方法、装置、设备及介质

站点导航

APP 下载