摘要
本发明公开了一种基于深度强化学习的资源感知预测与分配方法;本发明通过采用双深度Q网络结构,将目标Q值计算中的动作选择和动作评估进行解耦,有效解决了传统Q学习算法中因Q值过高估计而导致的决策不稳和收敛困难问题,实现了更精确、更高效的资源分配。本发明通过引入这种动态自适应的决策机制,克服了传统静态或基于规则的分配策略在面对复杂多变的应用负载时资源利用率低、响应延迟高的局限性,大量实验证实本发明在提升系统整体吞吐量、降低任务平均周转时间方面,显著优于现有技术方法。
技术关键词
深度强化学习
资源分配
策略
深度Q网络
非线性特征提取
整体吞吐量
Q学习算法
更新网络参数
网络结构
深度神经网络
服务器集群
线性单元
提升系统
能耗
队列
阶段
计算方法