摘要
本发明的大模型推理效能动态优化与硬件感知压缩方法包括五个步骤:S1:生成表征计算复杂度的输入复杂度信号;S2:同步监控运行平台的硬件资源指标,生成反映实时负载的硬件状态信号;S3:将输入复杂度信号与硬件状态信号输入动态策略选择器,通过预训练的决策模型生成压缩控制信号;S4:根据压缩控制信号,对当前推理任务的大模型权重和激活值执行动态重配置操作;S5:使用重配置后的大模型执行推理计算,并在计算过程中将硬件资源指标实时反馈至S2,形成闭环优化链路。本发明的大模型推理效能动态优化与硬件感知压缩方法可以解决静态压缩方法在动态输入和异构硬件环境下导致的资源利用率低下、延迟波动及能效失衡的问题。
技术关键词
感知压缩方法
策略选择器
动态
复杂度
信号
效能
补偿量化误差
图形处理器
神经网络处理器
在线增量学习
层次化语义
指标
交叉注意力机制
强化学习框架
滑动窗口机制
神经网络架构
分布式监控
门控循环单元
内核