一种用于长文本大语言模型的层次辅助稀疏注意方法

正文

推荐专利

申请号：CN202510003045

申请日期：2025-01-02

公开号：CN119990363A

公开日期：2025-05-13

类型：发明专利

摘要

本发明提供一种用于长文本大语言模型的层次辅助稀疏注意方法，所述方法包括：步骤S1、在每一层大语言模型层中增加一个参数共享的偏移分支得到新的大语言模型；步骤S2、将上下文切分成多个片段输入到大语言模型层内得到局部特征输出，同时对每个片段进行池化，输入到同层的偏移分支中得到低分辨率表示；步骤S3、将上一层的偏移分支输出的低分辨率表示拼接到当前层的大语言模型层的局部特征，输出给下一层大语言模型层；步骤S4、对新的大语言模型进行微调，并在其最后一个大语言模型层后接入一个语言建模头，用以输出下游任务的处理结果。采用本发明方法可有效提高推理效率的同时确保模型性能不被降低，降低生成首个词元时可能面临显著的延迟。

技术关键词

大语言模型分支注意力机制文本多层感知机问答系统参数基础模块元素

系统为您推荐了相关专利信息

图像生成方法、装置、电子设备及存储介质

图像生成方法浅层特征提取深层特征提取权重特征通道注意力机制

一种路网数据的道路宽度自动计算与质量校验方法

校验方法验证计算结果路网拓扑结构执行噪声边缘提取算法

基于大模型的在线合同风险评估方法、系统、介质和设备

风险评估方法合同文本数据风险点风险评估规则风险评估报告

核安全级DCS系统工程应用软件逻辑对比方法和装置

逻辑节点图纸人机交互界面基准

一种面向多模态数据的档案整理固化方法

面向多模态数据固化方法图像编辑软件数据建立索引索引系统

一种用于长文本大语言模型的层次辅助稀疏注意方法

站点导航

APP 下载