摘要
本发明公开了一种资源调度场景中的离线到在线深度强化学习方法,包括以下步骤:S1、获取资源调度数据,并进行数据预处理;S2、结合专家模仿学习和多头注意力机制,进行策略模型的离线训练;S3、使用SAC强化学习算法迭代优化策略模型,通过与实时环境的动态交互细化策略模型,学习响应资源变化,进行策略模型的在线训练;S4、使用动态策略更新模块,结合乐观和悲观策略更新,根据在线反馈调整策略模型参数,并返回训练好的策略模型网络;该方法融合了在线学习的SAC强化学习算法和离线学习的专家模仿学习技术,并引入了优先经验回放和多头注意力机制,通过动态更新代理策略模型,可有效提高资源调度的效率和准确性。
技术关键词
深度强化学习方法
多头注意力机制
强化学习算法
策略更新
离线
在线
资源
网络
场景
误差
样本
数据
动态更新
参数
决策
因子
偏差