摘要
本发明涉及边缘优化技术领域,尤其是涉及一种基于强化学习的边缘网络服务状态优化方法及系统。方法,包括获取边缘计算网络运行数据;构建边缘计算网络优化模型,其中,包括面向动态环境的马尔可夫决策过程MDP建模以及基于决斗深Q网络D3QN的模型训练与优化;利用训练好的边缘计算网络优化模型进行数据优化;输出优化数据。相比传统信息年龄(AoI)和查询信息年龄(QAoI)方法,本发明提出的TPAoI指标更完整地刻画了状态信息的生命周期,提升了优化决策的精准性。
技术关键词
状态优化方法
面向动态环境
深度强化学习算法
网络优化
状态更新
深度Q网络
决策
服务状态信息
年龄
接入点
阶段
网络架构
网络结构
服务器
随机梯度下降
参数
多层感知机
数据获取模块