摘要
本发明提供一种问答大模型训练方法、问答方法、装置、设备及存储介质,涉及人工智能技术领域,其中方法包括:获取待训练的问答大模型及问题样本集;所述问题样本集中包括多个难度等级的问题样本;对于所述问题样本集中的每个所述问题样本,获取所述问题样本的思维链集合;所述思维链集合中包括分别由多个推理大模型输出的思维链;根据所述问题样本的难度等级及所述思维链集合,对所述问答大模型进行强化学习训练,得到训练好的目标问答大模型。本发明实现增强训练稳定性及模型的探索能力。
技术关键词
模型训练方法
样本
问答方法
答案
模型训练模块
非暂态计算机可读存储介质
模型训练装置
正确率
人工智能技术
处理器
存储器
数值
电子设备
语义
参数