摘要
本公开提出一种序列处理方法、电子设备和存储介质,序列处理方法包括:将输入序列分割成有序的第一批次数个子序列,并确定各个子序列对应的子序列序号;基于子序列序号确定子序列中的各个输入词元对应的第一位置编码;基于输入词元在对应的子序列中的位置序号确定各个输入词元对应的第二位置编码,并基于第一位置编码和第二位置编码确定对应的目标位置编码;针对各个输入词元,基于对应的目标位置编码调整对应的第一查询向量和第一键向量,得到对应的第二查询向量和第二键向量;基于各个输入词元对应的各个第二查询向量、各个第二键向量和各个值向量进行注意力处理,得到与输入数据对应的输出序列。本公开能提高大语言模型在推理过程中的外推性。
技术关键词
样本
序列
注意力
大语言模型
编码
矩阵
电子设备
处理器
可读存储介质
因子
数据总线
存储器
程序
分词
指数
本子
计算机
参数