结合视觉和语言指令引导的机器人抓取方法、装置

AITNT
正文
推荐专利
结合视觉和语言指令引导的机器人抓取方法、装置
申请号:CN202410842147
申请日期:2024-06-27
公开号:CN118721192A
公开日期:2024-10-01
类型:发明专利
摘要
本申请公开了一种结合视觉和语言指令引导的机器人抓取方法及装置,属于机器人抓取领域,该方法包括:获取目标场景的RGB图像以及对应的视觉特征,获取目标对象输入的语言指令以及语言指令对应的文本特征;在目标场景中的待抓取对象的语言指令无法匹配到目标指令的情况下,基于SAM模型得到待抓取对象的掩码,其中,目标指令为预先设置的自然语言指令;融合RGB图像的视觉特征与掩码的视觉特征得到融合视觉特征,对齐融合视觉特征与文本特征得到对齐结果;基于对齐结果生成抓取信息,控制机器人按照抓取信息执行抓取操作,其中,抓取信息包括抓取点、抓取角度、抓取宽度。本申请采用SAM模型生成精确掩码,并对掩码进行特征提取,结合视觉与语言指令对机器人的抓取操作进行引导,提高了机器人抓取操作的抓取精度及通用性。
技术关键词
融合视觉特征 机器人抓取方法 投射器 文本 指令 对象 机器人抓取装置 自然语言 处理单元 场景 图像 存储单元 抓取模块 电子设备 网络
系统为您推荐了相关专利信息
1
数据处理方法及装置、电子设备及计算机可读存储介质
数据处理方法 字段 数据处理装置 语义 可读存储介质
2
一种虚拟电厂的优化方法、装置、设备及存储介质
滑动窗口 功率优化 鲸鱼算法 负荷 表达式
3
基于数字孪生的电气一体化综合性培训方法及系统
数字孪生模型 个性化学习路径 历史故障数据 一体化设备 故障特征
4
一种基于多模态数据融合的地铁司机异常行为识别方法
多模态数据融合 司机 中央调度系统 骨骼关键点 动态背景分析
5
一种基于Bert的学术论文标题分级装置和方法
融合多模态信息 文本 分级装置 分阶段 编码
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号