摘要
本申请公开了一种问答方法、问答大模型的训练方法、相关设备及程序产品,本申请采用基于大模型的检索增强生成方案,可以同时生成答案内容及知识引用来源。所采用的大模型预先通过强化学习训练,为了提高大模型生成的知识引用来源的正确性、事实性,强化学习过程的奖励函数基于引用一致性和/或事实一致性确定,该引用一致性用于鼓励模型生成的知识引用来源与真值标签中的知识引用来源保持一致,事实一致性用于鼓励模型生成的答案内容与生成的知识引用来源所对应的知识片段的语义保持一致。通过按照上述奖励函数对大模型进行强化学习训练,可以提高大模型生成内容的准确性和可靠性,有效缓解大模型幻觉问题。
技术关键词
问答方法
样本
数据
标签
语义向量
生成答案
计算机程序产品
处理器
指令
可读存储介质
存储器
模板
标记
电子设备
指标
系统为您推荐了相关专利信息
人工智能评价
评价管理方法
数据
评价管理系统
构建卷积神经网络
信息隔离方法
路由器
数据
校验特征
网络隔离技术
LDPC译码器
特征提取模块
注意力
节点
奇偶校验矩阵
特征参量
故障诊断模型
电力变压器
故障诊断方法
样本