摘要
本申请公开了一种模型训练方法、装置、电子设备及计算机存储介质。其中,该模型训练方法包括:基于预设训练样本集中的第一训练样本集对初始基线模型进行监督微调,得到监督微调模型以及偏好数据样本;基于偏好数据样本对初始奖励模型进行优化训练,得到目标奖励模型,以及基于偏好数据样本对监督微调模型进行优化训练,得到偏好优化模型;基于偏好优化模型和第一训练样本集生成第一奖励信号,以及基于偏好优化模型、目标奖励模型和预设训练样本集中的第二训练样本集生成第二奖励信号;基于第一奖励信号、第二奖励信号以及第二训练样本集对偏好优化模型进行优化训练,得到目标对象生成式预训练模型。采用该方法能够提升模型的泛化能力。
技术关键词
预训练模型
训练样本数据
训练样本集
对象
模型训练方法
信号
计算机存储介质
基线
模型训练装置
无监督
度量
电子设备
指标
模块
交互方法
电商
参数
处理器
系统为您推荐了相关专利信息
分布式存储集群
非易失性存储介质
推荐方法
节点
加密算法
智能分析预测方法
LSTM模型
分析预测系统
时间序列特征
输入结构
高斯混合模型
混合建模方法
协方差矩阵
数据读取模块
后验概率