摘要
本发明公开了一种面向大语言模型处理极长文本的推理运行加速方法,属于大规模预训练语言模型推理优化技术领域,具体地:选取大语言模型并启用稀疏注意力模式,输入不同文本,记录不同层各注意力头执行时间和注意力模式类型,建立统计数据库;求解实际文本下大语言模型的多头注意力负载均衡分配策略;通过拆分权重矩阵,建立权重索引表;检索各注意力头对应的权重子矩阵,加载至对应GPU设备;通过异步预加载相邻层的MHA计算权重和MLP计算权重,结合KV缓存管理,实现推理过程的负载均衡。本发明通过在推理阶段进行注意力头的动态切分、重组和调度,有效避免多GPU负载不均衡和资源空转的问题,显著提升长序列处理的系统吞吐量。
技术关键词
注意力
大语言模型
矩阵
文本
流水线并行计算
搜索算法
索引表
模式
预训练语言模型
动态规划算法
遗传算法
策略
神经网络算法
系统吞吐量
并行技术
内存
分块
序列
阶段
系统为您推荐了相关专利信息
人体关键点检测
行人检测
重识别方法
图像超分辨算法
注意力
轻量化神经网络
机箱管理方法
可视化模块
数据采集模块
机箱管理系统
文本特征向量
文本编码器
噪声参数
噪声图像
标签
反射面
波束成形方法
接收机
接收信号功率信息
无线感知系统