一种基于GQA特性优化的大语言模型推理加速方法、系统及应用

AITNT
正文
推荐专利
一种基于GQA特性优化的大语言模型推理加速方法、系统及应用
申请号:CN202510843751
申请日期:2025-06-23
公开号:CN120892179A
公开日期:2025-11-04
类型:发明专利
摘要
本发明公开了一种基于GQA特征优化的大语言模型推理加速方法,所述方法包括:步骤一、确定查询张量Q的切分粒度,将所述查询张量Q切分为一个或多个子任务;步骤二、自适应确定键张量K和值张量V的切分数量;步骤三、计算查询张量Q,计算完成后将键张量K和值张量V分别调度至不同计算单元组并行执行计算。本发明还公开了实现上述推理加速方法的推理加速系统,包括计算任务动态划分模块、并行调度模块、动态寻址复用模块、零拷贝访问模块。本发明中的推理加速方法和系统具有广泛应用价值。
技术关键词
地址偏移量 并行计算单元 逻辑 推理系统 代码生成系统 硬件系统 模块 动态 拷贝 加速系统 多轮对话 注意力 数据访问 处理器 编程 内存 可读存储介质 索引 存储器
系统为您推荐了相关专利信息
1
一种大语言模型多轮对话上下文保持能力的量化评估系统及方法
大语言模型 多轮对话 量化评估系统 正确率 量化评估方法
2
显示装置及其驱动方法和显示系统
逻辑处理单元 图像采集单元 显示装置 投影单元 图像生成单元
3
处理器互联结构、主板及服务器
处理器互联结构 切换器 接口 输入端 信号发生器
4
机器人物理任务的规划方法、装置、设备及介质
机器人 图像特征数据 坐标 序列 规划
5
一种销售链路异常根因分析方法、系统、终端及存储介质
异常订单 链路 数据采集工具 分析方法 可视化技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号