摘要
本申请公开了一种系统的资源调整方法、装置以及设备。首先可以获取目标系统的当前状态及下一动作,执行动作后得到下一状态,并计算当前状态变化到下一状态过程中的违约惩罚和多维奖励信号矩阵。对奖励信号矩阵进行非线性组合形成初步奖励函数,同时计算下一状态的动态折扣因子。结合违约惩罚与初步奖励函数构建总奖励函数,基于该奖励函数和动态折扣因子迭代更新价值函数,直至收敛。最终,依据收敛的价值函数对目标系统进行有效的资源调整。本申请通过量化约束违反程度实现灵活违约惩罚,采用非线性奖励组合提升多维奖励的表达能力,并引入动态折扣因子兼顾短期与长期收益,显著增强了资源调度算法的适应性、优化效果和持续性能保障。
技术关键词
系统状态变化
动态
矩阵
因子
非线性
信号
资源调度算法
指标
处理器
控制权
超参数
符号
存储器
机制
能耗
基础
系统为您推荐了相关专利信息
早产儿
管理方法
文本
特征提取模块
图像特征提取
样本
控制烹饪设备
温度预测模型
智能烹饪方法
特征提取网络
ElGamal算法
同态加密算法
字符
计算方法
场景
资源动态调度方法
多云环境
云平台
资源分配
策略