摘要
本发明公开了一种用于联合无人机部署与资源分配的深度强化学习方法,通过建立一个通信网络模型,初始化通信环境、无人及数量以及用户数量;根据用户的信噪比和系统容量,确定优化目标和约束条件;将优化问题转换为马尔科夫决策过程,使用深度强化学习方法,确定智能体、状态空间、动作空间以及奖励函数;每个智能体通过D3QN算法与环境不断的交互优化更新自身的网络,使智能体得到最优的资源分配策略;利用个性化的联邦深度强化学习,旨在最大化长期网络吞吐量,同时保护用户隐私并适应时变网络状态,在PFDRL的联邦学习框架中,采用深度强化学习算法,使无人机能够基于局部观测实时决策资源分配和位置调整,同时实现全局最优解。
技术关键词
深度强化学习方法
联合无人机
资源分配策略
无人机共享系统
整体吞吐量
网络吞吐量
无人机通信链路
教师
通信网络
深度强化学习算法
定义
无人机天线
信噪比信息
保护用户隐私
损失函数优化