摘要
本发明公开了一种基于大语言模型和深度学习的多模式软体手抓取方法及系统,方法包括:S1,利用深度相机拍摄RGB图片与深度图片;S2,将RGB图片作为输入,使用Yolo模型识别并分割图片中的物体,输出物体名称与其在图中的二维坐标;S3,将S2的输出与指令作为输入,使用GPT4判断应当抓取的物体名称,输出对应的二维坐标;S4,利用获得的二维坐标分割RGB图像与深度图像,获得待抓取对象的分割图;S5,提取RGB图像中物体二维形状特征与深度图像中深度特征,通过SVM分类模型判断物体形状;S6,将判断出的形状与抓取方式建立对应关系,最终得到抓取方式。本发明能够实现高准确率的实时物体识别和操作决策。
技术关键词
抓取物体
大语言模型
抓取方法
SVM分类
图像
抓取系统
预训练语言模型
摄像机
深度相机
坐标系
识别模块
深度学习模型
模式
抓取模块
决策
形态
图片
系统为您推荐了相关专利信息
信息采集终端
港机设备
分布式监控
数据同步方法
标记置信度
病理切片图像
高分辨率大视场
语义特征
特征选择
编码
RFID标签
物品尺寸信息
管理方法
运载车
三维模型