一种基于双向序列推理的多智能体强化学习系统

正文

推荐专利

申请号：CN202510907111

申请日期：2025-07-02

公开号：CN120996072A

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开了一种基于双向序列推理的多智能体强化学习系统，包括数据获取模块、序列推理模块和策略优化模块三部分。首先，在数据获取模块，设计面向BS I‑MARL的智能体状态空间、动作空间以及奖励函数；然后基于Transformer模型，在序列推理模块设计面向双向序列推理的编码器‑解码器模块，用于生成多智能体决策的动作序列；最后在策略优化模块设计面向BS I‑MARL的策略梯度优化方法，评估多智能体的动作选择。本发明系统融合双向推理机制以建模智能体之间的相互影响关系，充分挖掘决策序列中的上下文依赖信息，从而提升非平稳环境下的多智能体学习效率和策略最优性，可应用于多智能体决策任务中。

技术关键词

强化学习系统数据获取模块序列策略编码器多层感知器决策智能体交互智能体系统解码器结构生成框架推理机制解码结构学习方法注意力机制定义三维结构

系统为您推荐了相关专利信息

云原生场景的智能灰度发布决策引擎及风险评估方法

风险评估方法智能决策引擎策略场景染色

面向逻辑运算的光学神经网络训练方法及装置

混合损失函数神经网络训练方法对比度逻辑误差加权

一种纵向联邦学习中基于模型精度预估的参与者选择方法

发布者特征值编码联邦学习模型样本精度

一种电缆线芯温度监测方法

电缆保护层温度预测模型电缆线芯温度阶段序列

一种操作意图识别方法、交互方法及相关装置

意图识别方法端点交互方法对象图像

一种基于双向序列推理的多智能体强化学习系统

站点导航

APP 下载