摘要
一种基于块式深度循环Actor‑Critic算法的移动边缘服务迁移系统,以用户为中心,将服务迁移问题建模为部分可观测马尔科夫决策过程,基于深度强化学习(DRL)利用局部的系统状态信息实现实时迁移决策。本发明将服务迁移问题建模为一个离散时间的部分可观测马尔可夫决策过程,并提出了基于块式深度循环演员‑批评家的服务迁移方法,旨在保证服务的质量,降低延迟。本发明通过联合使用自注意力机制和循环神经网络进行策略优化,并设计了一种长短期记忆和嵌入矩阵相结合的编码器网络,从采样历史中提取隐藏信息,实现了端到端强化学习,快速学习最优的迁移策略。本发明有效的保证服务质量并降低了总延迟。
技术关键词
迁移系统
服务器
分块
注意力机制
网络
策略
编码器
决策
服务迁移方法
噪声功率谱密度
系统状态信息
样本
回程
变量
强化学习算法
深度强化学习
随机梯度下降
定义
系统为您推荐了相关专利信息
优化超声图像
一维卷积神经网络
非酒精脂肪肝
超声信号
便携式智能
工业物联网
网络平台
数据采集频率
存储组件
参数
LSTM模型
污水厂
引入注意力机制
活性污泥模型
自养微生物
数据监测方法
传输模块
图像识别算法
WebRTC技术
通讯
节点导纳矩阵
电磁暂态仿真方法
桥臂等效电路
电磁暂态仿真装置
等值建模方法