摘要
本发明涉及路由优化技术领域,具体涉及一种基于深度强化学习与博弈论的智能组播路由优化方法,将现实场景中的边缘设备抽象为一个无向图网络拓扑结构,读取利用软件定义网络技术获取的网络状态信息数据集;根据数据集中的拓扑信息和链路信息对每条边设置链路成本;根据单播路径之间存在的潜在博弈关系,建立激励激励机制为后续强化学习训练做准备;再根据组播需求,通过逐步选择到达每个目的节点的单播路径的方式构建组播路径;目的节点的单播路径依次加入组播路径后给出总奖励值,通过训练达到纳什均衡状态。本发明通过优化组播路由路径的选择,利用单播路径间的博弈关系进行资源共享,显著降低了传输成本。
技术关键词
深度强化学习
网络状态信息
链路丢包率
强化学习算法
网络拓扑结构
深度双Q网络
拓扑结构网络
源节点
强化学习方法
矩阵
更新网络参数
网络技术
深度Q网络
时延
生成工具
定义
组播树
系统为您推荐了相关专利信息
联合优化方法
无线通信系统
波束
执行随机梯度下降
网络
污水处理方法
数据标准化技术
水质监测数据
遗传算法优化
资源配置参数
任务分配方法
深度强化学习模型
网络拓扑控制
决策
动态