摘要
本申请公开了一种大模型训练方法、问答方法、相关设备及计算机程序产品,本申请获取问答训练数据;将问题样本送入待训练的大模型进行推理,得到大模型的预测输出;基于大模型推理过程产生的隐层状态特征计算探索奖励,探索奖励用于鼓励大模型采用未知的推理路径处理所述问题样本;基于预测输出和答案标签计算结果奖励;按照探索奖励和结果奖励,采用强化学习方式更新大模型的参数。本申请在强化学习过程额外增加了探索奖励,能够鼓励大模型探索未知的推理路径,避免陷入局部最优,提升了大模型在面对复杂问题时发现更优的推理路径的概率,进而提升了大模型在复杂推理任务上的表现,提高了对复杂推理问题的回答结果的准确度。
技术关键词
模型训练方法
问答方法
答案
阶段
计算机程序产品
样本
标签
处理器
参数
因子
可读存储介质
网络
存储器
序列
电子设备
数据
时序
关系
系统为您推荐了相关专利信息
互联微电网
优化调度模型
优化约束条件
柔性互联装置
优化调度方法
阴影检测
生成对抗网络模型
恢复方法
样本
融合特征
无人机
巡检图像
扫描平台
巡检路径
激光雷达模块
认证标签
密码分组链接
多模式
计数器
消息认证码
知识库管理系统
企业搜索引擎
对接模块
答案
知识库管理方法