大模型推理效能动态优化与硬件感知压缩方法

正文

推荐专利

申请号：CN202510983404

申请日期：2025-07-17

公开号：CN120494006B

公开日期：2025-09-12

类型：发明专利

摘要

本发明的大模型推理效能动态优化与硬件感知压缩方法包括五个步骤：S1：生成表征计算复杂度的输入复杂度信号；S2：同步监控运行平台的硬件资源指标，生成反映实时负载的硬件状态信号；S3：将输入复杂度信号与硬件状态信号输入动态策略选择器，通过预训练的决策模型生成压缩控制信号；S4：根据压缩控制信号，对当前推理任务的大模型权重和激活值执行动态重配置操作；S5：使用重配置后的大模型执行推理计算，并在计算过程中将硬件资源指标实时反馈至S2，形成闭环优化链路。本发明的大模型推理效能动态优化与硬件感知压缩方法可以解决静态压缩方法在动态输入和异构硬件环境下导致的资源利用率低下、延迟波动及能效失衡的问题。

技术关键词

感知压缩方法策略选择器动态复杂度信号效能补偿量化误差图形处理器神经网络处理器在线增量学习层次化语义指标交叉注意力机制强化学习框架滑动窗口机制神经网络架构分布式监控门控循环单元内核

大模型推理效能动态优化与硬件感知压缩方法

站点导航

APP 下载