一种资源调度场景中的离线到在线深度强化学习方法

正文

推荐专利

申请号：CN202411946278

申请日期：2024-12-27

公开号：CN119847700A

公开日期：2025-04-18

类型：发明专利

摘要

本发明公开了一种资源调度场景中的离线到在线深度强化学习方法，包括以下步骤：S1、获取资源调度数据，并进行数据预处理；S2、结合专家模仿学习和多头注意力机制，进行策略模型的离线训练；S3、使用SAC强化学习算法迭代优化策略模型，通过与实时环境的动态交互细化策略模型，学习响应资源变化，进行策略模型的在线训练；S4、使用动态策略更新模块，结合乐观和悲观策略更新，根据在线反馈调整策略模型参数，并返回训练好的策略模型网络；该方法融合了在线学习的SAC强化学习算法和离线学习的专家模仿学习技术，并引入了优先经验回放和多头注意力机制，通过动态更新代理策略模型，可有效提高资源调度的效率和准确性。

技术关键词

深度强化学习方法多头注意力机制强化学习算法策略更新离线在线资源网络场景误差样本数据动态更新参数决策因子偏差

一种资源调度场景中的离线到在线深度强化学习方法

站点导航

APP 下载