一种资源调度场景中的离线到在线深度强化学习方法

AITNT
正文
推荐专利
一种资源调度场景中的离线到在线深度强化学习方法
申请号:CN202411946278
申请日期:2024-12-27
公开号:CN119847700A
公开日期:2025-04-18
类型:发明专利
摘要
本发明公开了一种资源调度场景中的离线到在线深度强化学习方法,包括以下步骤:S1、获取资源调度数据,并进行数据预处理;S2、结合专家模仿学习和多头注意力机制,进行策略模型的离线训练;S3、使用SAC强化学习算法迭代优化策略模型,通过与实时环境的动态交互细化策略模型,学习响应资源变化,进行策略模型的在线训练;S4、使用动态策略更新模块,结合乐观和悲观策略更新,根据在线反馈调整策略模型参数,并返回训练好的策略模型网络;该方法融合了在线学习的SAC强化学习算法和离线学习的专家模仿学习技术,并引入了优先经验回放和多头注意力机制,通过动态更新代理策略模型,可有效提高资源调度的效率和准确性。
技术关键词
深度强化学习方法 多头注意力机制 强化学习算法 策略更新 离线 在线 资源 网络 场景 误差 样本 数据 动态更新 参数 决策 因子 偏差
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号