基于奖励模型的对话模型训练方法、装置、设备及介质

AITNT
正文
推荐专利
基于奖励模型的对话模型训练方法、装置、设备及介质
申请号:CN202510681280
申请日期:2025-05-26
公开号:CN120764555A
公开日期:2025-10-10
类型:发明专利
摘要
本发明涉及自然语言处理技术领域,公开了一种基于奖励模型的对话模型训练方法、装置、设备及介质,方法包括:利用奖励训练数据对基础模型进行优化迭代得到对话模型;对一个奖励训练数据:将对话提示和背景指令输入基础模型,通过基础模型生成思维链下的多个递进式输出结果;利用校验奖励模型对多个递进式输出结果打分得到多个第一打分结果,并筛选打分最高的第一优势打分结果;利用生成奖励模型分别对多个递进式输出结果打分得到多个第二打分结果;根据多个第一打分结果、第一优势打分结果和多个第二打分结果优化基础模型。对话模型能够倾向于准确生成更合规更专业、且更多样更创新的递进式回复。
技术关键词
模型训练方法 生成向量 数据 基础 文本编码器 模型训练装置 指令 可读存储介质 处理器 自然语言 计算机设备 超参数 模块 存储器 策略 样本 专业
系统为您推荐了相关专利信息
1
基于图像处理的锻件温度测量方法
像素点 温度测量方法 锻件 图像处理 图像分割模型
2
一种褐土耕地钙积问题识别方法、系统、设备及存储介质
耕地 识别方法 回归树模型 指标 特征值
3
一种通过环境声识别声纹信息的智能交互系统
环境声识别 智能交互系统 特征提取模块 意图 短时傅里叶变换
4
一种低温保鲜金属粮仓的智能化温湿度控制方法与系统
温湿度控制方法 低温保鲜 粮仓 指数 数据识别模型
5
一种电力铁附件状态监测与管理方法及系统
电力铁附件 管理方法 多模态智能传感器 综合健康指数 管理系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号