摘要
本发明涉及智能体技术领域,尤其涉及一种基于线性时态逻辑控制的策略生成及分解方法,包括使用GR(1)规范若干智能体系统行为,将策略合成形式化为可达性,计算不动点集确定满足智能体目标的状态,构建自动机实现GR(1)规范;将合成策略自动机分解为个体策略自动机,使每个智能体基于自身的局部观察和决策进行行动;构建具有同步和分解策略的分散经验重放Q学习算法;利用DER‑QL算法同步自动机缓冲从高级合成策略中学习到的策略,从而指导低级MARL的学习。本发明解决现有DQL算法处理智能体之间行为存在相互影响时,缺乏协调导致性能下降问题;以及易重复做出不合理决策,导致学习效率低、收敛速度慢问题。
技术关键词
线性时态逻辑
自动机
计算机程序代码
智能体系统
学习算法
智能体技术
笛卡尔
索引
贪婪策略
决策
处理器
三元组
标记
定义
缓冲
指令
变量
存储器
系统为您推荐了相关专利信息
供电系统
路径损耗模型
强化学习算法
构建监测网络
主站
汽车职业教育
实训方法
多模态交互系统
触觉反馈设备
汽车实训
智能电网
扩展卡尔曼滤波算法
预警方法
非线性动态模型
贝叶斯网络模型
网络异常流量
攻击防御系统
攻击防御模块
网络流量分析
策略
肠道微生物标志物
志贺氏菌属
16SrRNA基因
假单胞菌属
构建预测模型