摘要
一种基于成本评估强化学习的无人机轨迹优化和功率分配方法、系统、设备及介质,所述方法为:构建安全约束下无人机数据服务场景,建模无人机轨迹优化和功率分配的多目标优化问题,同时设计无人机数据服务评价指标;将多目标优化问题转化为约束马尔可夫决策问题;分别设计状态空间、动作空间、即时奖励函数以及相应的成本函数;构建一个与奖励评估critic网络并行的成本评估critic网络,根据约束马尔可夫决策问题,使用成本评估SAC算法训练更新无人机的网络参数,计算无人机轨迹优化和功率分配参数;系统、设备及介质用于实现该方法;本发明满足了随机动态的安全约束下数据服务场景的地面用户数据服务需求。
技术关键词
无人机轨迹优化
功率分配方法
功率分配参数
SAC算法
设计无人机
网络
训练算法
通信链路
功率分配设备
地面
年龄
功率分配系统
指标
场景
累积分布函数
概率密度函数
正交频分复用
可读存储介质