摘要
本申请公开了一种回复生成模型训练方法及相关装置,该回复生成模型训练方法包括:获取当前轮的对话训练集,其中,当前轮的对话训练集包括至少一个第一对话,第一对话包括第一查询和对应的第一回复,至少一个第一对话包括当前轮对应的第一对话,当前轮对应的第一对话中的第一回复是由当前轮的上一轮得到的强化学习大模型基于对应的第一查询生成;利用当前轮的对话训练集对预训练大模型进行监督微调,得到当前轮的监督微调大模型;利用当前轮的监督微调大模型进行强化学习,得到当前轮的强化学习大模型;其中,最终轮得到的强化学习大模型作为回复生成模型。上述方案,能够提升训练效果和训练效率。
技术关键词
生成模型训练方法
训练集
回复生成方法
模型训练装置
生成装置
处理器
模块
可读存储介质
程序
指令
存储器
电子设备
计算机
系统为您推荐了相关专利信息
智能广告投放系统
图片识别技术
模块
构建用户画像
智能广告投放方法
级联残差神经网络
齿轮箱组合
频域信息融合
状态识别方法
残差模块
故障诊断模型
制作电流互感器
注意力机制
漂移故障
故障诊断系统
心音信号分类方法
特征提取算法
心动周期
机器学习模型训练
特征选择