一种降低深度学习模型响应时延的方法、装置及存储介质

正文

推荐专利

申请号：CN202510249305

申请日期：2025-03-04

公开号：CN120123093B

公开日期：2025-08-26

类型：发明专利

摘要

本发明涉及一种降低深度学习模型响应时延的方法、装置及存储介质，应用于人工智能技术领域，包括：通过滑动窗口采样获取历史负载，基于历史负载使用动态联合预测机制获取初始负载预测数据，通过对应的负载实际数据序列获取误差补偿值，通过对初始负载预测数据进行误差补偿，得到最终负载预测数据；基于最终负载预测数据序列确定未来一段时间所需的实例总数；通过调整当前正在运行的实例数量以匹配未来一段时间所需的实例总数，从而降低大规模深度学习模型推理工作的响应时延；本申请通过精确的工作负载预测和资源调度，能够有效减少模型推理的响应时延，提高服务水平目标的达成率，并降低服务成本。

技术关键词

长短期记忆网络深度学习模型 LSTM模型序列误差补偿值多项式滑动窗口采样数据时延人工智能技术模块主控器时间段机制动态资源

系统为您推荐了相关专利信息

一种网络安全监控方法及监控系统

网络安全监控方法网络安全监控系统融合特征网络流量数据集权重特征

基于大数据与周期函数的交易风险预警方法及系统

交易风险预警预警模型周期性特征大数据文本

一种多源情报驱动的端网协同攻击防御方法

攻击防御方法网络安全设备节点融合特征注意力

实验室仪器数据自动采集与质量追溯系统及方法

分布式搜索数据采集节点实验室仪器追溯系统数据采集设备

一种基于面向对象思想的模型管理方法及系统

面向对象思想模型管理方法数据生成模型模型库决策

一种降低深度学习模型响应时延的方法、装置及存储介质

站点导航

APP 下载