摘要
本发明提供一种模型推理方法及装置,方法包括:对至少一个第一注意力头中的键向量进行位置编码后,基于位置编码后的查询向量、位置编码后的键向量以及值向量确定第一注意力计算结果;基于其余注意力头的键向量、值向量以及位置编码后的查询向量,确定其余注意力头的第二注意力计算结果;基于第一注意力计算结果以及第二注意力计算结果进行模型推理,得到当前推理结果;在确定第二注意力计算结果的过程中,若确定当前输入对应分词与历史分词相同,则对第二注意力计算结果对应注意力头的相应键值信息进行压缩。本发明在对第二注意力计算结果对应注意力头的相应键值信息进行压缩时没有丢弃重要信息,将高度冗余的信息进行压缩,接近无损压缩。
技术关键词
注意力
推理方法
键值
分词
编码
非暂态计算机可读存储介质
文本生成模型
推理装置
处理器
计算机程序产品
存储器
电子设备
冗余
系统为您推荐了相关专利信息
轨迹分析方法
社区结构
自动编码器
轨迹聚类算法
模拟模型
实时监测数据
信息区块链
信息整合方法
实时数据监测
节点
寿命评估系统
防沙体系
服役寿命预测
局部时空特征
多维特征数据