摘要
本发明提供一种多无人机最优博弈受限加速强化学习控制方法及装置,涉及加速强化学习技术领域。该方法包括:构建评判神经网络,逼近带双曲线正切函数和博弈邻居项的性能指标函数、无人机的最优受限控制输入和无人机最坏情况下的受限控制输入;基于上述输入参数,构建哈密尔顿‑雅可比误差方程;通过误差方程,构建包含当前信息和过去信息的带调节参数的求和平方误差;设计评判神经网络的权值更新律;根据权值更新律,计算下一次迭代的权值;求解相邻两次迭代权值的误差,并与预设阈值进行比较,若误差小于预设的阈值,停止迭代,输出逼近分布式无人机系统最优博弈一致控制问题的解。采用本发明可提升无人机之间的协作效率。
技术关键词
强化学习控制方法
受限
多无人机
误差
神经网络权值
学习控制设备
计算机可读取存储介质
学习控制装置
无人机系统
计算机可读指令
邻居
方程
矩阵
强化学习技术
参数
双曲正切函数
处理器
存储器
代表