基于奖励模型的对话模型训练方法、装置、设备及介质

正文

推荐专利

申请号：CN202510681280

申请日期：2025-05-26

公开号：CN120764555A

公开日期：2025-10-10

类型：发明专利

摘要

本发明涉及自然语言处理技术领域，公开了一种基于奖励模型的对话模型训练方法、装置、设备及介质，方法包括：利用奖励训练数据对基础模型进行优化迭代得到对话模型；对一个奖励训练数据：将对话提示和背景指令输入基础模型，通过基础模型生成思维链下的多个递进式输出结果；利用校验奖励模型对多个递进式输出结果打分得到多个第一打分结果，并筛选打分最高的第一优势打分结果；利用生成奖励模型分别对多个递进式输出结果打分得到多个第二打分结果；根据多个第一打分结果、第一优势打分结果和多个第二打分结果优化基础模型。对话模型能够倾向于准确生成更合规更专业、且更多样更创新的递进式回复。

技术关键词

模型训练方法生成向量数据基础文本编码器模型训练装置指令可读存储介质处理器自然语言计算机设备超参数模块存储器策略样本专业

系统为您推荐了相关专利信息

基于图像处理的锻件温度测量方法

像素点温度测量方法锻件图像处理图像分割模型

一种褐土耕地钙积问题识别方法、系统、设备及存储介质

耕地识别方法回归树模型指标特征值

一种通过环境声识别声纹信息的智能交互系统

环境声识别智能交互系统特征提取模块意图短时傅里叶变换

一种低温保鲜金属粮仓的智能化温湿度控制方法与系统

温湿度控制方法低温保鲜粮仓指数数据识别模型

一种电力铁附件状态监测与管理方法及系统

电力铁附件管理方法多模态智能传感器综合健康指数管理系统

基于奖励模型的对话模型训练方法、装置、设备及介质

站点导航

APP 下载