摘要
本发明公开了一种基于深度强化学习的在线路由方法及系统,具体为:1、计算源节点到目的节点之间的K条路径;2、预测第n‑1个周期得到的最优路径p的预测性能指标;3、计算第n‑2个周期得到的最优路径y的实际性能指标;4、计算步骤2中预测性能指标和步骤3中实际性能指标之间的相对差异,并根据相对差异更新端到端时延,端到端剩余带宽和端到端丢包率的权重;5、基于步骤4获得的权重更新第n个周期的奖励函数,基于第n个周期的奖励函数,采用SAC算法计算出第n个周期的最优路径,然后转步骤2。本发明可以更快地适应网络环境的变化,获得稳定、最优的路由方案。
技术关键词
深度强化学习
SAC算法
数据处理模块
时延
网络监测模块
交换机设备
源节点
网络拓扑结构
周期
线路
构建通信网络
通信网络拓扑
链路级
安装模块
生成数据集
处理器
系统为您推荐了相关专利信息
深度强化学习算法
均衡器参数
优化网络参数
强化学习方法
多层感知机
智能监测预警系统
数据挖掘模型
预警平台
指标
预警算法
肺部CT图像
图像感兴趣区域
多尺度
配准方法
级联
航空发动机维修
飞机发动机维修
深度强化学习
决策方法
性能退化数据