摘要
本发明提供了一种面向智算融合网络的缓存与路由联合优化方法。该方法包括:以最大化RLC中的长期累积缓存奖励为目标,将智算融合网络的缓存与路由联合优化问题建模为MDP问题;利用AC学习模型,采用基于部分去中心化的MADRL的协作缓存算法C‑MAAC来求解多智能体马尔可夫决策问题;在静态且预先已知的理想假设下,使用P‑CCCP方法推导出所述智算融合网络的缓存与路由联合优化问题的全局优化解。本发明提出了一种面向智算融合网络的缓存与路由联合优化方法,针对融合网络中节点用户偏好分布不均以及差异化的用户服务需求,传统网络资源管理方法存在效率低下和缓存性能受限的问题,利用多智能体深度强化学习实现大规模复杂环境下智能内容部署和灵活路由转发。
技术关键词
联合优化方法
缓存决策问题
缓存算法
节点
网络资源管理方法
深度强化学习
变量
采样器
缓存策略
网络部署
双循环结构
定义
工具箱
参数
族群