摘要
本发明涉及人工智能、深度学习技术领域,用于通过人工智能平台对深度学习模型、机器学习模型或大语言模型推理时的资源占用情况进行监控,并进行资源调节,以降低了服务器资源负载。本发明提供一种基于人工智能平台的目标模型的推理加速方法及设备,所述方法包括:在所述目标模型的推理过程中,获取所述多个步骤中每个步骤对应的硬件资源占用数据,以及所述每个步骤对应的设定负载阈值;在所述多个步骤中存在至少一个目标步骤的情况下,扩展所述目标步骤对应的实例,所述目标步骤为对应的所述硬件资源占用数据大于对应的所述设定负载阈值的步骤。
技术关键词
人工智能平台
模型剪枝
精度
数据
深度学习技术
内存
机器学习模型
深度学习模型
处理器
容器
存储器
电子设备
资源
系统为您推荐了相关专利信息
屏幕检测方法
触控检测设备
服务端
区域数据库
客户端
故障检测方法
检测设备
分析风力发电机组
风力发电机组故障
故障分析模型
节能热泵系统
经济效益评估
舒适度
室内环境参数
能效