摘要
本发明公开了一种基于分割掩码表示的可泛化机器人操作方法和系统,属于桌面场景机器人操作领域。自动化生成大量虚拟环境下的桌面场景布局,以及针对各布局的机器人操作轨迹数据,每一条轨迹数据生成多样化文本指令;收集每一操作步下的机器人视角图像、机器人状态数据和一条文本指令作为一条训练样本;利用预训练多模态大模型定位每一条训练样本中的文本指令所指出的目标物体和目标区域,得到目标物体掩码和目标区域掩码;将若干历史操作步对应的目标物体掩码、目标区域掩码、训练样本输入机器人操作策略网络,预测机器人下一操作步的动作指令。本发明有效结合了视觉、语言和空间信息,提升了机器人策略在多变任务场景中的泛化能力。
技术关键词
机器人操作方法
桌面场景
图像编码器
文本
指令
大语言模型
多层感知机
预测机器人
定位模块
多模态
视角
注意力
构建三维物体
策略
训练机器人
动作特征
空间位置关系
图像解码器