摘要
本公开涉及一种模型服务的扩缩容方法、装置、设备及存储介质。预测未来词元负载,未来词元负载用于表征与未来一段时间内的全部请求对应的输入词元数量和/或输出词元数量;基于未来词元负载和模型服务的当前词元生成速度,确定扩缩容策略,扩缩容策略指示了对模型服务包括的当前服务实例数量进行增加或缩减的数量;按照扩缩容策略对模型服务包括的当前服务实例数量进行增加或缩减。本公开在对模型服务进行扩缩容时充分考虑了请求特性,从而可以提升资源分配的精细程度。并且,本公开能够针对未来负载提前进行资源分配,因此可以提前应对即将到来的请求高峰或低谷。
技术关键词
时序预测模型
非暂时性机器可读存储介质
策略
处理器
资源分配
速度
指标
计算机程序产品
电子设备
决策
数据
时间段
模块
存储器
系统为您推荐了相关专利信息
星载合成孔径雷达
成像雷达技术
滑动聚束模式
轨道
星载微波
存储模块
总线接口单元
传输模块
子系统
数据处理方法