摘要
本申请提供了一种基于序列依赖层级传播机制的大模型优化方法及系统,涉及大语言模型技术领域,大模型包括表示学习模块和下游任务模块,表示学习模块的具体步骤为:对输入的文本进行自然语言处理,得到词向量序列;基于序列依赖层级传播机制,将词向量序列进行均匀分块,分别使用片段间与片段内的注意力机制,生成Key矩阵和Value矩阵;利用Key矩阵和Value矩阵,进行Transformer的注意力机制计算,得到最终的序列表示,作为下游任务模块的输入。本发明引入序列依赖层级传播机制,将序列划分为多个块,并在这些块内和块间有效学习序列依赖关系,从而显著降低了传统自注意力机制的计算复杂度,并有效减少了内存占用。
技术关键词
模型优化方法
注意力机制
序列
层级
矩阵
非暂态计算机可读存储介质
自然语言
模型优化系统
模块
分块
文本
电子设备
处理器
大语言模型
存储器
计算机程序产品
关系
堆叠层