一种基于分割掩码表示的可泛化机器人操作方法和系统

正文

推荐专利

申请号：CN202510170495

申请日期：2025-02-17

公开号：CN120107583B

公开日期：2025-11-25

类型：发明专利

摘要

本发明公开了一种基于分割掩码表示的可泛化机器人操作方法和系统，属于桌面场景机器人操作领域。自动化生成大量虚拟环境下的桌面场景布局，以及针对各布局的机器人操作轨迹数据，每一条轨迹数据生成多样化文本指令；收集每一操作步下的机器人视角图像、机器人状态数据和一条文本指令作为一条训练样本；利用预训练多模态大模型定位每一条训练样本中的文本指令所指出的目标物体和目标区域，得到目标物体掩码和目标区域掩码；将若干历史操作步对应的目标物体掩码、目标区域掩码、训练样本输入机器人操作策略网络，预测机器人下一操作步的动作指令。本发明有效结合了视觉、语言和空间信息，提升了机器人策略在多变任务场景中的泛化能力。

技术关键词

机器人操作方法桌面场景图像编码器文本指令大语言模型多层感知机预测机器人定位模块多模态视角注意力构建三维物体策略训练机器人动作特征空间位置关系图像解码器

一种基于分割掩码表示的可泛化机器人操作方法和系统

站点导航

APP 下载