摘要
本发明属于车辆智能驾驶的数据处理与传输技术领域,涉及一种基于深度强化学习的车载边缘计算网络延迟优化与感知任务卸载联合优化方法。该方法基于多智能体近端策略优化算法(MAPPO),将复杂的任务卸载建模为一个马尔可夫决策过程(MDP),使得各智能体能够在动态环境中持续学习和优化卸载策略。为增强车辆间的协同能力,本发明引入了可学习的通信图结构,使车辆能够基于感知信息自主建立V2V通信联系,从而实现更高效的任务共享与资源利用。此外,为提升算法的泛化能力,设计了一个排名策略记忆(RPM)机制,用于增强多智能体在不同场景下的学习稳定性和策略迁移能力。
技术关键词
联合优化方法
服务器
队列
深度强化学习
车辆智能驾驶
缓冲器
更新网络参数
定义
训练神经网络
场景
算法
节点
决策
卸载策略
信道
系统为您推荐了相关专利信息
精度优化方法
履带车辆
状态量信息
状态空间方程
网络
激励方法
节点更新
服务器
深度强化学习算法
年龄
服务器节点
消息认证码
三元组
密钥
神经网络模型