摘要
本发明涉及一种降低深度学习模型响应时延的方法、装置及存储介质,应用于人工智能技术领域,包括:通过滑动窗口采样获取历史负载,基于历史负载使用动态联合预测机制获取初始负载预测数据,通过对应的负载实际数据序列获取误差补偿值,通过对初始负载预测数据进行误差补偿,得到最终负载预测数据;基于最终负载预测数据序列确定未来一段时间所需的实例总数;通过调整当前正在运行的实例数量以匹配未来一段时间所需的实例总数,从而降低大规模深度学习模型推理工作的响应时延;本申请通过精确的工作负载预测和资源调度,能够有效减少模型推理的响应时延,提高服务水平目标的达成率,并降低服务成本。
技术关键词
长短期记忆网络
深度学习模型
LSTM模型
序列
误差补偿值
多项式
滑动窗口采样
数据
时延
人工智能技术
模块
主控器
时间段
机制
动态
资源
系统为您推荐了相关专利信息
网络安全监控方法
网络安全监控系统
融合特征
网络流量数据集
权重特征
攻击防御方法
网络安全设备
节点
融合特征
注意力
分布式搜索
数据采集节点
实验室仪器
追溯系统
数据采集设备
面向对象思想
模型管理方法
数据生成模型
模型库
决策