摘要
本发明提供了一种语言模型训练方法、装置、存储介质和电子设备,属于自然语言处理技术领域。本发明实施例首先基于基础数据集,对初始语言模型进行训练,得到第一语言模型;然后根据第一语言模型在同一提示词下生成的回答文本对的事实性得分,将事实性得分较高的回答文本标注为优选回答,将事实性得分较低的回答文本标注为非优选回答,以构建得到偏好数据集;最后基于偏好数据集和预设的事实性强化算法,对第一语言模型进行训练,得到目标语言模型。本发明实施例利用偏好数据集对第一语言模型进行进一步的事实性强化训练,使得训练得到的目标语言模型在生成内容时能够优先选择事实性更高的文本,进而显著提升模型生成内容的事实准确性。
技术关键词
语言模型训练方法
文本
数据
样本
算法
模型训练装置
参数
电子设备
网络
基础
自然语言
处理器
可读存储介质
模块
存储器
计算机
标签
系统为您推荐了相关专利信息
自动化计算机控制方法
设备运行状态
频域特征提取
控制策略
预测阈值
非线性扰动观测器
机器人动力学模型
状态空间方程
跟踪控制算法
离散状态空间
温度检测传感器
雾炮机
电加热丝
保温套
信号预处理模块
前馈神经网络
成形
神经网络模型
氧化物弥散强化
参数
掘进巷道
参数优化方法
回归算法
粉尘浓度控制
通风