摘要
本发明公开了一种机器人交互式目标物体抓取系统及方法,包括:视觉定位模块,被配为获取当前场景图像和初始抓取指令,预测得到待抓取目标物体的候选区域坐标集合;问题生成模块,被配为从候选区域坐标集合中采样一个候选区域坐标作为候选目标区域,基于所述场景图像,生成对应的自然语言问题;回答理解模块,被配置为响应于用户对自然语言问题的回答,对每个候选区域的匹配度进行评分;协同推理模块,被配置为综合视觉定位模块得到的每个候选区域坐标的概率和回答理解模块对每个候选区域的匹配度评分,输出最终的目标区域位置。本发明突破传统方法对预设模板与显式类别依赖的局限性,在面对复杂场景时,仍然能够准确识别出用户要抓取的目标物体。
技术关键词
物体抓取系统
视觉定位模块
多模态对话
自然语言
生成场景图像
物体抓取方法
机器人基坐标系
抓取模块
生成答案
抓取动作
数据
文本