一种用于长文本大语言模型的层次辅助稀疏注意方法

AITNT
正文
推荐专利
一种用于长文本大语言模型的层次辅助稀疏注意方法
申请号:CN202510003045
申请日期:2025-01-02
公开号:CN119990363A
公开日期:2025-05-13
类型:发明专利
摘要
本发明提供一种用于长文本大语言模型的层次辅助稀疏注意方法,所述方法包括:步骤S1、在每一层大语言模型层中增加一个参数共享的偏移分支得到新的大语言模型;步骤S2、将上下文切分成多个片段输入到大语言模型层内得到局部特征输出,同时对每个片段进行池化,输入到同层的偏移分支中得到低分辨率表示;步骤S3、将上一层的偏移分支输出的低分辨率表示拼接到当前层的大语言模型层的局部特征,输出给下一层大语言模型层;步骤S4、对新的大语言模型进行微调,并在其最后一个大语言模型层后接入一个语言建模头,用以输出下游任务的处理结果。采用本发明方法可有效提高推理效率的同时确保模型性能不被降低,降低生成首个词元时可能面临显著的延迟。
技术关键词
大语言模型 分支 注意力机制 文本 多层感知机 问答系统 参数 基础 模块 元素
系统为您推荐了相关专利信息
1
图像生成方法、装置、电子设备及存储介质
图像生成方法 浅层特征提取 深层特征提取 权重特征 通道注意力机制
2
一种路网数据的道路宽度自动计算与质量校验方法
校验方法 验证计算结果 路网拓扑结构 执行噪声 边缘提取算法
3
基于大模型的在线合同风险评估方法、系统、介质和设备
风险评估方法 合同文本数据 风险点 风险评估规则 风险评估报告
4
核安全级DCS系统工程应用软件逻辑对比方法和装置
逻辑 节点 图纸 人机交互界面 基准
5
一种面向多模态数据的档案整理固化方法
面向多模态数据 固化方法 图像编辑软件 数据建立索引 索引系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号