摘要
本发明提出一种交互场景下的多智能体协同交互决策与控制方法,首先各智能体获取对抗场景的时序状态信息;在各智能体的决策系统中,获取的对抗场景时序状态信息输入LSTM网络进行预测和特征提取,得到隐藏状态,将隐藏状态输入到SAC强化学习模型中,并通过设计的奖励函数对LSTM网络以及SAC强化学习模型进行训练,最终得到各智能体的机动决策动作向量;各智能体以机动决策动作向量作为控制目标值,依据离散增量式PID控制器对智能体进行控制。该方法基于多智能体SAC强化学习算法,结合了LSTM时序处理和双经验回放机制,并通过设计合理的奖励函数机制,在具有复杂动态物体的环境中,能够快速预测动态物体的运动轨迹,对自身连续动作量进行准确决策。
技术关键词
强化学习模型
决策系统
场景
动态物体
时序
网络
强化学习算法
速度
动能
坐标
轨迹
机制
处理器
可读存储介质
存储器
控制器
典型
电子设备
程序
系统为您推荐了相关专利信息
复发预测方法
LSTM神经网络
卷积神经网络提取
患者
数据噪声
车道线信息
虚拟道路边界
点云信息
线生成方法
生成虚拟车道线
状态空间模型
描述符
多模态
激光雷达传感器
序列
数据格式
文档编辑方法
生成提示信息
分片
存储服务器