一种基于元强化学习的星地融合网络路由方法及系统

正文

推荐专利

申请号：CN202510233982

申请日期：2025-02-28

公开号：CN120034931A

公开日期：2025-05-23

类型：发明专利

摘要

本发明涉及卫星网络通信技术领域，提供一种基于元强化学习的星地融合网络路由方法及系统，包括利用STK工具包构建并生成网络拓扑结构；创建存储训练样本的多任务经验池；定义确定最优路由的评价指标，并根据马尔科夫决策过程构建星地融合网络的状态空间、动作空间和奖励函数；在线神经网络确定当前状态Q值，在目标神经网络中Bellman方程更新状态Q值，采用经验回放和贪婪搜索方法进行训练并选择对应的智能体动作；初始化更新频率和更新步数，通过在多个网络结构并行训练实现最优路由策略。适用于星地融合网络中多任务应用环境，经过较少训练在新网络环境中实现最优的路由策略，合理利用网络资源，解决现有强化学习方法训练速度慢、多环境适应性问题。

技术关键词

网络拓扑结构强化学习算法生成网络拓扑多任务在线搜索方法工具包决策卫星网络通信技术链路网络结构强化学习方法策略训练样本数据梯度下降算法指标方程基站

一种基于元强化学习的星地融合网络路由方法及系统

站点导航

APP 下载