一种基于价值分解差异的多主体对比探索方法

正文

推荐专利

申请号：CN202510144491

申请日期：2025-02-10

公开号：CN119990245A

公开日期：2025-05-13

类型：发明专利

摘要

本发明公开了一种基于价值分解差异的多智能体对比探索方法，该方法利用价值分解的差异和对比原则，根据不同的价值分解估计之间的差异确定更新权重，设置更新权重并将这种差异作为更新过程中的内在目标。MACE架构包含两个值函数估计器，每个值函数估计器都负责估计两种VD方法对应的联合状态动作值函数Qjt和Qtot，利用Qjt和Qtot之间的差异来创建一个隐式奖励函数和加权机制来指导探索，用于更新两个内部函数估计器。这种方法确保了Q值较高的动作优先进行采样，而Q值较小的动作仍然有机会进行采样，增强了探索行为，不仅在学习速度和最终性能上明显优于基线，而且有效保持了完整的表示能力。

技术关键词

全局状态信息注意力机制 Attention机制协作动作采集周围环境前馈神经网络混合网络网络部署策略模块因子编码数据基线参数决策轨迹

系统为您推荐了相关专利信息

电力系统负荷的预测方法、装置、存储介质及电子设备

拓扑图电气连接结构节点特征注意力神经网络样本

用于动作规划的方法、装置、设备和存储介质

解码模型融合特征训练机器人编码动作规划方法

基于通道注意力和字形聚合的甲骨文去噪方法、装置及介质

去噪方法去噪模型纠正器图像字符

一种基于交叉自注意力与特征归纳的多模态融合方法

图像特征数据融合方法平衡特征融合特征交叉注意力机制

一种基于YOLOv9改进模型的激光焊点缺陷检测方法及系统

焊点缺陷检测方法激光通道注意力机制焊点检测系统焊点检测技术

一种基于价值分解差异的多主体对比探索方法

站点导航

APP 下载