摘要
本发明提出了一种基于多目标强化学习的自适应拥塞控制方法,包括以下步骤:建立延迟动作的多目标马尔可夫决策过程MOMDP:在马尔可夫决策过程中引入偏好空间Ω和偏好函数fΩ;fΩ用于将所选指标偏好w∈Ω转化为指标标量;指标偏好表示指标的权重向量;将拥塞控制问题建模为MOMDP;基于强化学习算法,训练Actor‑Critic网络,经过训练的Actor网络学习出的策略即为智能体的最优控制策略;其中,Actor‑Critic网络以状态和指标偏好作为输入。本发明为双端全效连接迁移过程提供灵活动态的流量控制处理方案,确保端到端网络信息传输的高效性和及时性。本发明还提出了一种终端设备、计算机可读存储介质。
技术关键词
拥塞控制方法
指标
网络
强化学习算法
策略
可读存储介质
参数
终端设备
决策
处理器
更新方法
计算机
基线
因子
批量
存储器
关系
样本
动态
系统为您推荐了相关专利信息
综合评估方法
储能优化配置
风险
指标
遗传算法求解
BIM建筑模型
数据验证
BIM模型数据
数据完整性校验
报告
命名实体识别方法
掩码策略
条件随机场模型
BERT模型
序列
交易数据处理方法
加密策略
数据安全性
混合加密算法
非对称加密算法