摘要
本发明涉及一种基于扩散模型和反馈学习的人机混合编队智能决策生成方法,通过建立训练场景和多智能体样本生成机制,采用扩散模型生成大量训练样本,从而获得有效观测样本;采用改进的反馈学习算法,实现策略的监督寻优,解决由于训练样本的随机波动导致的训练过程中可能出现的局部决策优化;基于扩散模型探索策略样本,对人机混合编队博弈策略实现智能生成,比现有方法所采用的强化学习策略训练生成具有更强的适应能力和泛化能力,同时本发明采用反馈学习,对初始扩散得到的策略进行监督优化和更新,克服了现有方法探索效率低,收敛慢,策略价值信息利用不足的缺点,提高了人机混合编队博弈胜率。
技术关键词
人机混合编队
决策生成方法
混合网络
轨迹
仿真环境
梯度下降算法
偏好计算方法
智能体神经网络
样本
缓冲池
智能算法控制
注意力
强化学习策略
阶段
更新网络参数
救援机器人
系统为您推荐了相关专利信息
人体姿态控制
交互系统
皮影装置
神经网络架构
图像识别算法
轨迹定位方法
钻孔设备
测量点
钻孔路径
激光扫描仪
轨迹优化方法
粒子
狼群算法
遗传算法求解
多无人机
旋转装置
定位缓冲装置
汽缸盖
工作台表面
旋转架