摘要
本发明公开了一种基于GQA特征优化的大语言模型推理加速方法,所述方法包括:步骤一、确定查询张量Q的切分粒度,将所述查询张量Q切分为一个或多个子任务;步骤二、自适应确定键张量K和值张量V的切分数量;步骤三、计算查询张量Q,计算完成后将键张量K和值张量V分别调度至不同计算单元组并行执行计算。本发明还公开了实现上述推理加速方法的推理加速系统,包括计算任务动态划分模块、并行调度模块、动态寻址复用模块、零拷贝访问模块。本发明中的推理加速方法和系统具有广泛应用价值。
技术关键词
地址偏移量
并行计算单元
逻辑
推理系统
代码生成系统
硬件系统
模块
动态
拷贝
加速系统
多轮对话
注意力
数据访问
处理器
编程
内存
可读存储介质
索引
存储器
系统为您推荐了相关专利信息
大语言模型
多轮对话
量化评估系统
正确率
量化评估方法
逻辑处理单元
图像采集单元
显示装置
投影单元
图像生成单元
异常订单
链路
数据采集工具
分析方法
可视化技术