摘要
本申请公开一种大语言模型训练方法、装置、电子设备及存储介质,涉及人工智能与强化学习技术领域。方法包括:获取问题语句对应的初始预测答案语句;针对初始预测答案语句进行语义扩充检索,确定与初始预测答案语句相对应的检索答案语句;针对检索答案语句进行评分,并基于检索答案语句的评分结果,确定初始预测答案语句的目标奖励值;若目标奖励值小于预设奖励阈值,基于目标奖励值对预训练大语言模型进行调整,并将问题语句再次输入调整后的模型中,直至最后得到的目标奖励值大于或等于预设奖励阈值,完成对预训练大语言模型的训练。本申请能够提升大语言模型的优化训练效率和模型输出的准确性,提升了大语言模型输出的稳定性。
技术关键词
语句
语言模型训练方法
答案
大语言模型
语义
机器可读指令
强化学习技术
训练装置
电子设备
奖励算法
格式
处理器
可读存储介质
存储器
输出模块
计算机
样本
教师
数据
系统为您推荐了相关专利信息
序列
项目推荐方法
语义
项目推荐装置
计算机设备
设备标识信息
通信设备管理方法
模板
通信设备运维
指令
报告生成方法
非接触式
深度神经网络结构
图像特征编码
损失函数设计
疲劳寿命预测方法
裂纹识别
训练深度神经网络
三维有限元模型
图像
聚类分割方法
矩阵
多层感知机
节点特征
多头注意力机制