摘要
本发明公开了一种基于GPU、NPU的人工智能大模型推理加速方法及系统,涉及大模型技术领域。一种基于GPU、NPU的人工智能大模型推理加速系统,包括有:推理信息分流模块和推理数据加速模块。本发明通过结合输入数据特征、模型结构动态控制、以及异构计算资源协同调度,实现了高度自适应的大模型推理优化,实现计算资源与数据复杂度的精准匹配,显著提升整体推理吞吐量和响应速度;采用基于策略输出模型的动态调度机制,合理分配GPU/NPU计算任务,避免资源空转与拥堵,提高硬件利用率,尤其适用于多任务并发和高帧率视频场景。
技术关键词
语义特征
资源分配策略
热力图
图像
标签
序列
数据
运动
加速系统
文本
图谱
复杂度
层级
视频流
强度
矢量图
像素点
光流法
系统为您推荐了相关专利信息
信号解码方法
视觉诱发脑
语义特征
多模态
重建高分辨率图像
无人机故障
构件故障
检测无人机
轻量级卷积神经网络
生成对抗网络
太阳能电池片电极
解卷积网络
模型训练方法
生成高度
太阳能电池电极
图像编码器
图像分析模型
样本
图像分析方法
大语言模型
动态优化方法
分类规则
数据分类
生成结构化数据
分类准确率