摘要
本发明提供一种用于长文本大语言模型的层次辅助稀疏注意方法,所述方法包括:步骤S1、在每一层大语言模型层中增加一个参数共享的偏移分支得到新的大语言模型;步骤S2、将上下文切分成多个片段输入到大语言模型层内得到局部特征输出,同时对每个片段进行池化,输入到同层的偏移分支中得到低分辨率表示;步骤S3、将上一层的偏移分支输出的低分辨率表示拼接到当前层的大语言模型层的局部特征,输出给下一层大语言模型层;步骤S4、对新的大语言模型进行微调,并在其最后一个大语言模型层后接入一个语言建模头,用以输出下游任务的处理结果。采用本发明方法可有效提高推理效率的同时确保模型性能不被降低,降低生成首个词元时可能面临显著的延迟。
技术关键词
大语言模型
分支
注意力机制
文本
多层感知机
问答系统
参数
基础
模块
元素
系统为您推荐了相关专利信息
图像生成方法
浅层特征提取
深层特征提取
权重特征
通道注意力机制
校验方法
验证计算结果
路网拓扑结构
执行噪声
边缘提取算法
风险评估方法
合同文本数据
风险点
风险评估规则
风险评估报告
面向多模态数据
固化方法
图像编辑软件
数据建立索引
索引系统