摘要
本发明涉及卫星网络通信技术领域,提供一种基于元强化学习的星地融合网络路由方法及系统,包括利用STK工具包构建并生成网络拓扑结构;创建存储训练样本的多任务经验池;定义确定最优路由的评价指标,并根据马尔科夫决策过程构建星地融合网络的状态空间、动作空间和奖励函数;在线神经网络确定当前状态Q值,在目标神经网络中Bellman方程更新状态Q值,采用经验回放和贪婪搜索方法进行训练并选择对应的智能体动作;初始化更新频率和更新步数,通过在多个网络结构并行训练实现最优路由策略。适用于星地融合网络中多任务应用环境,经过较少训练在新网络环境中实现最优的路由策略,合理利用网络资源,解决现有强化学习方法训练速度慢、多环境适应性问题。
技术关键词
网络拓扑结构
强化学习算法
生成网络拓扑
多任务
在线
搜索方法
工具包
决策
卫星网络通信技术
链路
网络结构
强化学习方法
策略
训练样本数据
梯度下降算法
指标
方程
基站