一种面向大语言模型处理极长文本的推理运行加速方法

正文

推荐专利

申请号：CN202510315102

申请日期：2025-03-18

公开号：CN119847763B

公开日期：2025-05-30

类型：发明专利

摘要

本发明公开了一种面向大语言模型处理极长文本的推理运行加速方法，属于大规模预训练语言模型推理优化技术领域，具体地：选取大语言模型并启用稀疏注意力模式，输入不同文本，记录不同层各注意力头执行时间和注意力模式类型，建立统计数据库；求解实际文本下大语言模型的多头注意力负载均衡分配策略；通过拆分权重矩阵，建立权重索引表；检索各注意力头对应的权重子矩阵，加载至对应GPU设备；通过异步预加载相邻层的MHA计算权重和MLP计算权重，结合KV缓存管理，实现推理过程的负载均衡。本发明通过在推理阶段进行注意力头的动态切分、重组和调度，有效避免多GPU负载不均衡和资源空转的问题，显著提升长序列处理的系统吞吐量。

技术关键词

注意力大语言模型矩阵文本流水线并行计算搜索算法索引表模式预训练语言模型动态规划算法遗传算法策略神经网络算法系统吞吐量并行技术内存分块序列阶段

系统为您推荐了相关专利信息

一种行人重识别方法及系统

人体关键点检测行人检测重识别方法图像超分辨算法注意力

一种基于轻量化神经网络的机箱管理系统及方法

轻量化神经网络机箱管理方法可视化模块数据采集模块机箱管理系统

图像处理方法、装置及电子设备

文本特征向量文本编码器噪声参数噪声图像标签

智能反射面辅助的自适应盲波束成形方法

反射面波束成形方法接收机接收信号功率信息无线感知系统

基于AI模型构建的智能平台系统及构建方法

客服智能平台系统反馈子系统缓冲池情感特征

一种面向大语言模型处理极长文本的推理运行加速方法

站点导航

APP 下载