摘要
本发明公开了一种面向观测缺失环境的多智能体关节机器人任务执行方法、设备、介质,智能体基于局部观测通过策略网络输出关节机器人动作,与环境交互生成轨迹数据存入经验池;采样连续时序数据,训练世界模型;通过世界模型对经验数据进行预测,生成伪样本;构建策略损失、价值函数损失,基于伪样本训练Actor‑Critic;测试时通过通信同步历史状态,调用世界模型补全缺失信息后输出关节动作联合决策。
技术关键词
关节机器人
网络
样本
梯度下降法
表达式
环境状态信息
数据
通信模块
处理器
生成轨迹
策略更新
计算机程序产品
因子
存储器
可读存储介质
变量
参数
系统为您推荐了相关专利信息
视频
深度学习模型
动作定位方法
多模态
文本特征向量
海流计
姿态校正方法
电磁
控制步进电机
BP神经网络
神经网络结构
数据防篡改
同态加密算法
节点
采样模块