摘要
本发明提出一种基于注意力分布的答案生成方法、系统、设备及介质,该方法包括:在提供和不提供上下文信息时,获取样本问题对应的正确答案在大模型输出的候选答案中的排名变化和每一注意力层对上下文信息的关注度排名变化;并生成注意力样本数据,获取对上下文信息关注度最大的第一注意力层和对上下文信息关注最小的第二注意力层;构造每一注意力层的注意力分布,并得到每一候选词语的差分注意力概率;根据每一候选词语的原始概率和每一候选词语的差分注意力概率,得到每一候选词语的修正概率,并根据每一候选词语的修正概率,输出最终回答。本发明通过大模型内部不同注意力层进行对比,减少额外计算过程,降低对硬件资源的消耗。
技术关键词
注意力
答案生成方法
词语
样本
计算机存储介质
数据
逻辑回归模型
序列
处理器
矩阵
生成系统
模块
计算机设备
超参数
存储器
系统为您推荐了相关专利信息
风电出力预测方法
矩阵
前馈神经网络
注意力机制
序列
图像分类模型
图像分类器
学习方法
存储介质电子设备
归一化模块