一种基于GQA特性优化的大语言模型推理加速方法、系统及应用

正文

推荐专利

申请号：CN202510843751

申请日期：2025-06-23

公开号：CN120892179A

公开日期：2025-11-04

类型：发明专利

摘要

本发明公开了一种基于GQA特征优化的大语言模型推理加速方法，所述方法包括：步骤一、确定查询张量Q的切分粒度，将所述查询张量Q切分为一个或多个子任务；步骤二、自适应确定键张量K和值张量V的切分数量；步骤三、计算查询张量Q，计算完成后将键张量K和值张量V分别调度至不同计算单元组并行执行计算。本发明还公开了实现上述推理加速方法的推理加速系统，包括计算任务动态划分模块、并行调度模块、动态寻址复用模块、零拷贝访问模块。本发明中的推理加速方法和系统具有广泛应用价值。

技术关键词

地址偏移量并行计算单元逻辑推理系统代码生成系统硬件系统模块动态拷贝加速系统多轮对话注意力数据访问处理器编程内存可读存储介质索引存储器

系统为您推荐了相关专利信息

一种大语言模型多轮对话上下文保持能力的量化评估系统及方法

大语言模型多轮对话量化评估系统正确率量化评估方法

显示装置及其驱动方法和显示系统

逻辑处理单元图像采集单元显示装置投影单元图像生成单元

处理器互联结构、主板及服务器

处理器互联结构切换器接口输入端信号发生器

机器人物理任务的规划方法、装置、设备及介质

机器人图像特征数据坐标序列规划

一种销售链路异常根因分析方法、系统、终端及存储介质

异常订单链路数据采集工具分析方法可视化技术

一种基于GQA特性优化的大语言模型推理加速方法、系统及应用

站点导航

APP 下载