摘要
本发明公开了一种基于价值分解差异的多智能体对比探索方法,该方法利用价值分解的差异和对比原则,根据不同的价值分解估计之间的差异确定更新权重,设置更新权重并将这种差异作为更新过程中的内在目标。MACE架构包含两个值函数估计器,每个值函数估计器都负责估计两种VD方法对应的联合状态动作值函数Qjt和Qtot,利用Qjt和Qtot之间的差异来创建一个隐式奖励函数和加权机制来指导探索,用于更新两个内部函数估计器。这种方法确保了Q值较高的动作优先进行采样,而Q值较小的动作仍然有机会进行采样,增强了探索行为,不仅在学习速度和最终性能上明显优于基线,而且有效保持了完整的表示能力。
技术关键词
全局状态信息
注意力机制
Attention机制
协作动作
采集周围环境
前馈神经网络
混合网络
网络部署
策略
模块
因子
编码
数据
基线
参数
决策
轨迹
系统为您推荐了相关专利信息
拓扑图
电气连接结构
节点特征
注意力神经网络
样本
解码模型
融合特征
训练机器人
编码
动作规划方法
图像特征数据
融合方法
平衡特征
融合特征
交叉注意力机制
焊点缺陷检测方法
激光
通道注意力机制
焊点检测系统
焊点检测技术