摘要
本申请公开了一种结合视觉和语言指令引导的机器人抓取方法及装置,属于机器人抓取领域,该方法包括:获取目标场景的RGB图像以及对应的视觉特征,获取目标对象输入的语言指令以及语言指令对应的文本特征;在目标场景中的待抓取对象的语言指令无法匹配到目标指令的情况下,基于SAM模型得到待抓取对象的掩码,其中,目标指令为预先设置的自然语言指令;融合RGB图像的视觉特征与掩码的视觉特征得到融合视觉特征,对齐融合视觉特征与文本特征得到对齐结果;基于对齐结果生成抓取信息,控制机器人按照抓取信息执行抓取操作,其中,抓取信息包括抓取点、抓取角度、抓取宽度。本申请采用SAM模型生成精确掩码,并对掩码进行特征提取,结合视觉与语言指令对机器人的抓取操作进行引导,提高了机器人抓取操作的抓取精度及通用性。
技术关键词
融合视觉特征
机器人抓取方法
投射器
文本
指令
对象
机器人抓取装置
自然语言
处理单元
场景
图像
存储单元
抓取模块
电子设备
网络
系统为您推荐了相关专利信息
数据处理方法
字段
数据处理装置
语义
可读存储介质
数字孪生模型
个性化学习路径
历史故障数据
一体化设备
故障特征
多模态数据融合
司机
中央调度系统
骨骼关键点
动态背景分析