摘要
本申请公开了一种单智能体路由控制方法、装置、设备和介质,涉及路由控制优化领域,包括:根据待控制网络的节点拓扑矩阵,构建待控制网络的单智能体;基于预设的神经网络框架,对所述单智能体输出的路由优化路径进行迭代,直至达到预设迭代轮次,输出最后迭代的路由优化路径;其中,每轮迭代时,通过深度强化学习,基于所述神经网络框架逐步生成路由优化路径;每一步生成中,基于排序机制选择下一跳路由节点,以更新所述路由优化路径;根据最后迭代的路由优化路径,对待控制网络的各路由节点进行控制。本申请的实施,能够解决现有路由控制方法容易产生不可达路由的技术问题。
技术关键词
神经网络框架
节点
深度强化学习
状态更新
梯度下降算法
参数
列表
数据获取单元
机制
可读存储介质
控制模块
处理器
样本
计算机设备
存储器
因子
系统为您推荐了相关专利信息
分布式储能系统
储能单元
优化控制方法
系统运行状态
时序
通信节点
功能模块
数据通讯方法
蓝牙组网
通讯设备
车联网环境
渗透测试方法
车载信息娱乐系统
深度强化学习模型
模拟测试模块