大模型训练方法、问答方法、相关设备及程序产品

正文

推荐专利

申请号：CN202510973166

申请日期：2025-07-15

公开号：CN120806159A

公开日期：2025-10-17

类型：发明专利

摘要

本申请公开了一种大模型训练方法、问答方法、相关设备及计算机程序产品，本申请获取问答训练数据；将问题样本送入待训练的大模型进行推理，得到大模型的预测输出；基于大模型推理过程产生的隐层状态特征计算探索奖励，探索奖励用于鼓励大模型采用未知的推理路径处理所述问题样本；基于预测输出和答案标签计算结果奖励；按照探索奖励和结果奖励，采用强化学习方式更新大模型的参数。本申请在强化学习过程额外增加了探索奖励，能够鼓励大模型探索未知的推理路径，避免陷入局部最优，提升了大模型在面对复杂问题时发现更优的推理路径的概率，进而提升了大模型在复杂推理任务上的表现，提高了对复杂推理问题的回答结果的准确度。

技术关键词

模型训练方法问答方法答案阶段计算机程序产品样本标签处理器参数因子可读存储介质网络存储器序列电子设备数据时序关系

系统为您推荐了相关专利信息

柔性互联微电网群优化调度方法、装置和计算机设备

互联微电网优化调度模型优化约束条件柔性互联装置优化调度方法

一种去除阴影干扰的地面法线向量恢复方法及相关装置

阴影检测生成对抗网络模型恢复方法样本融合特征

一种基于激光雷达和无人机的森林火灾早期预警方法

无人机巡检图像扫描平台巡检路径激光雷达模块

支持多模式复用的AES运算流程结构及工作方法

认证标签密码分组链接多模式计数器消息认证码

一种企业私域知识库管理系统

知识库管理系统企业搜索引擎对接模块答案知识库管理方法

大模型训练方法、问答方法、相关设备及程序产品

站点导航

APP 下载