一种面向大语言模型处理极长文本的推理运行加速方法

AITNT
正文
推荐专利
一种面向大语言模型处理极长文本的推理运行加速方法
申请号:CN202510315102
申请日期:2025-03-18
公开号:CN119847763B
公开日期:2025-05-30
类型:发明专利
摘要
本发明公开了一种面向大语言模型处理极长文本的推理运行加速方法,属于大规模预训练语言模型推理优化技术领域,具体地:选取大语言模型并启用稀疏注意力模式,输入不同文本,记录不同层各注意力头执行时间和注意力模式类型,建立统计数据库;求解实际文本下大语言模型的多头注意力负载均衡分配策略;通过拆分权重矩阵,建立权重索引表;检索各注意力头对应的权重子矩阵,加载至对应GPU设备;通过异步预加载相邻层的MHA计算权重和MLP计算权重,结合KV缓存管理,实现推理过程的负载均衡。本发明通过在推理阶段进行注意力头的动态切分、重组和调度,有效避免多GPU负载不均衡和资源空转的问题,显著提升长序列处理的系统吞吐量。
技术关键词
注意力 大语言模型 矩阵 文本 流水线并行计算 搜索算法 索引表 模式 预训练语言模型 动态规划算法 遗传算法 策略 神经网络算法 系统吞吐量 并行技术 内存 分块 序列 阶段
系统为您推荐了相关专利信息
1
一种行人重识别方法及系统
人体关键点检测 行人检测 重识别方法 图像超分辨算法 注意力
2
一种基于轻量化神经网络的机箱管理系统及方法
轻量化神经网络 机箱管理方法 可视化模块 数据采集模块 机箱管理系统
3
图像处理方法、装置及电子设备
文本特征向量 文本编码器 噪声参数 噪声图像 标签
4
智能反射面辅助的自适应盲波束成形方法
反射面 波束成形方法 接收机 接收信号功率信息 无线感知系统
5
基于AI模型构建的智能平台系统及构建方法
客服 智能平台系统 反馈子系统 缓冲池 情感特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号