摘要
本发明提供了时空任务驱动下多智能体强化学习任务规划与控制方法,包括:S1,建立多智能体系统下信号时序逻辑任务的强化学习控制器训练架构;S2,建立多智能体系统间的自注意力动作补偿机制;S3,根据任务框架构造信号时序逻辑任务对应的鲁棒值过滤基线;S4,根据环境信息对智能体动作生成软约束;S5,根据补偿动作程度构造多目标任务的冲突检测与任务重规划机制;S6,基于约束条件,迭代训练控制器参数以在线给出控制律满足STL任务需求。本发明利用强化学习的方式学习控制器参数,适应复杂环境下在线求解控制律,给出的控制律更加符合外部环境和内部动态系统的实际情况,大大减少在线计算控制律的负担。
技术关键词
多智能体系统
网络
学习控制器
基线
策略
鲁棒信息
状态空间模型
规划
参数
逻辑
时序
编码向量
注意力
框架构造
多智能体强化学习
因子
轨迹数据处理
周期
系统为您推荐了相关专利信息
强化学习网络
三维温度场
重构矩阵
仿真模型
成像特征
复合材料板
对射光纤传感器
通道注意力机制
光源控制器
脏污
CPU工作频率
策略优化模型
决策
多边缘
更新方法
遥感图像语义分割
神经网络模型
遥感图像数据
编码块
编码器