一种基于序列依赖层级传播机制的大模型优化方法及系统

正文

推荐专利

申请号：CN202510541168

申请日期：2025-04-28

公开号：CN120066802B

公开日期：2025-09-02

类型：发明专利

摘要

本申请提供了一种基于序列依赖层级传播机制的大模型优化方法及系统，涉及大语言模型技术领域，大模型包括表示学习模块和下游任务模块，表示学习模块的具体步骤为：对输入的文本进行自然语言处理，得到词向量序列；基于序列依赖层级传播机制，将词向量序列进行均匀分块，分别使用片段间与片段内的注意力机制，生成Key矩阵和Value矩阵；利用Key矩阵和Value矩阵，进行Transformer的注意力机制计算，得到最终的序列表示，作为下游任务模块的输入。本发明引入序列依赖层级传播机制，将序列划分为多个块，并在这些块内和块间有效学习序列依赖关系，从而显著降低了传统自注意力机制的计算复杂度，并有效减少了内存占用。

技术关键词

模型优化方法注意力机制序列层级矩阵非暂态计算机可读存储介质自然语言模型优化系统模块分块文本电子设备处理器大语言模型存储器计算机程序产品关系堆叠层

一种基于序列依赖层级传播机制的大模型优化方法及系统

站点导航

APP 下载