摘要
本申请公开了一种问答大模型训练及问答方法、装置、相关设备及程序产品,涉及人工智能技术领域。本申请采用强化学习方式对问答大模型进行训练,通过将问题样本送入问答大模型,得到其输出结果。确定其中答案的质量,并确定思维链的长度与设定思维链长度要求的匹配度,按照答案的质量及思维链长度的匹配度确定输出结果的奖励值,该奖励值与答案的质量、匹配度均成正相关关系,按照该输出结果的奖励值对问答大模型进行强化学习训练,增强问答大模型对输出的思维链长度的控制能力,同时,同时提升问答大模型输出的答案的质量。
技术关键词
答案
模型训练方法
问答方法
样本
模型训练装置
数据获取单元
数据处理单元
人工智能技术
计算机程序产品
处理器
关系
无监督
可读存储介质
存储器
电子设备
标签
系统为您推荐了相关专利信息
评测方法
非暂态计算机可读存储介质
处理器
评测装置
人工智能技术
气象数据采集系统
气象灾害预警
强对流
图像特征向量
天气