摘要
本发明涉及自然语言处理技术领域,公开了一种基于奖励模型的对话模型训练方法、装置、设备及介质,方法包括:利用奖励训练数据对基础模型进行优化迭代得到对话模型;对一个奖励训练数据:将对话提示和背景指令输入基础模型,通过基础模型生成思维链下的多个递进式输出结果;利用校验奖励模型对多个递进式输出结果打分得到多个第一打分结果,并筛选打分最高的第一优势打分结果;利用生成奖励模型分别对多个递进式输出结果打分得到多个第二打分结果;根据多个第一打分结果、第一优势打分结果和多个第二打分结果优化基础模型。对话模型能够倾向于准确生成更合规更专业、且更多样更创新的递进式回复。
技术关键词
模型训练方法
生成向量
数据
基础
文本编码器
模型训练装置
指令
可读存储介质
处理器
自然语言
计算机设备
超参数
模块
存储器
策略
样本
专业
系统为您推荐了相关专利信息
像素点
温度测量方法
锻件
图像处理
图像分割模型
环境声识别
智能交互系统
特征提取模块
意图
短时傅里叶变换
温湿度控制方法
低温保鲜
粮仓
指数
数据识别模型
电力铁附件
管理方法
多模态智能传感器
综合健康指数
管理系统