摘要
本发明公开了一种利用视觉语言模型的机器人自主抓取方法与系统,所述方法通过获取用户输入的自然语言抓取指令和目标工作空间的RGB‑D数据;通过视觉语言模型根据RGB‑D数据对自然语言抓取指令进行检测,确定检测结果;当检测结果为正确时,根据自然语言抓取指令和RGB‑D数据确定抓取位姿;基于抓取位姿抓取目标物体。由于多模态大语言模型结合了文本、图像、语音等多种模态,能够理解和生成与视觉相关的语言内容,本发明采用多模态大语言模型理解、检测自然语言抓取指令,得到正确的自然语言抓取指令,从而根据自然语言抓取指令抓取目标物体,解决了现有技术通过简单的语言指令控制机械臂进行抓取,无法灵活处理复杂指令的问题。
技术关键词
机器人自主抓取
自然语言
视觉
点云
数据
大语言模型
物体
指令
多模态
抓取物品
抓取模块
坐标系
处理器
可读存储介质
方程
程序
存储器
机械臂
终端
系统为您推荐了相关专利信息
癌细胞检测方法
感知特征
融合特征
分类网络
细胞分类器
电功率预测方法
站点
深度神经网络模型
异常数据处理
数据处理模块
修复路径规划方法
航空发动机叶片
加工点
样条
曲线
分类分级方法
循环神经网络模型
自动化算法
数据分类
更新模型参数