摘要
本申请属于人工智能技术领域,公开了一种用于机器人抓取操作场景的隐空间世界模型构建方法及其相关设备。该方法包括通过图像语义分割网络对场景图像进行语义分割,生成各物体的语义分割掩码;通过多任务场景理解网络对语义分割掩码进行处理,生成隐式表示;基于当前时刻各物体的隐式表示和机械臂动作信息,通过状态转移网络预测下一时刻隐式表示;根据预测的下一时刻隐式表示,通过多任务场景理解网络架构中的解码器生成场景分割图像重建结果、物体存在性判断结果及接触关系判断结果,构建场景的隐空间世界模型。基于上述方法,实现了对机器人抓取操作场景的高效表征与动态预测,提升了模型在复杂环境下的泛化能力和多任务协同效率。
技术关键词
图像语义分割网络
机器人抓取
多任务
物体
图像重建
图像解码器
多尺度特征提取
模型构建方法
感知特征
生成动作
生成场景
动作特征
网络架构
生成工作
编码模块
关系
系统为您推荐了相关专利信息
面部识别系统
口罩
多任务神经网络
样本
生成对抗网络
色彩管理
辅助系统
深度卷积神经网络预测
多光谱成像设备
图像采集模块
移动物体
障碍物
启发式搜索算法
线段
预测时间间隔
波形
反射特征
信号
线性回归模型
激光多普勒测振仪