摘要
本发明公开了一种基于多模态大模型的抓取姿态生成方法及系统,当输入语音指令和RGB图像时,将视觉特征与语义特征在多模态大模型中跨模态匹配得到控制函数代码与目标物体的位置信息;当输入带有手绘指令的RGB图像时,得到控制函数代码、目标物体与路径点的位置信息;根据目标物体的位置信息再结合深度信息计算出目标物体的点云数据,预处理后,将目标物体的理想点云输入目标识别网络模型,对目标物体区域的点云进行抓取区域识别,输出高抓取置信度区域,并映射真实坐标系;构建点云包围盒,生成抓取姿态候选集合;通过计算抓取姿态候选分数,选出质量最高的抓取姿态,作为机器人抓取位姿;结合控制函数代码及抓取路径执行目标抓取任务。
技术关键词
语义特征
生成方法
多模态
物体
视觉特征
点云
机器人抓取
关键点
多尺度特征提取
网络模型训练
局部特征提取
指令
坐标系
自然语言
图像
数据处理模块
全局结构信息
关键字
系统为您推荐了相关专利信息
机器人
自动化测试方法
车载传感器
车辆
多模态特征
护理衣物
衣物护理
纹理特征
监测方法
激光投影模块
障碍物检测方法
语义特征
融合特征
数据
激光雷达
全局地图
自动更新方法
机器人地图
动态更新
机器可读指令