摘要
本发明提供了一种基于视觉语言大模型的机器人控制方法,包括:通过采集人类操作示教数据,训练模仿学习网络;获取图像信息,并基于图像信息生成一系列抓取姿态,并获取抓取姿态质量评分;根据用户输入的文本指令,利用视觉语言大模型对各抓取姿态进行过滤;基于抓取姿态质量评分,选定过滤后各抓取姿态中的某一抓取姿态;根据选定的抓取姿态,控制机器人对待操作物体进行抓取;利用训练好的模仿学习网络控制机器人进行抓取待操作物体并与目标物体进行交互。本方法减少了对大量训练图片的依赖,在应对不同场景式具有较好的泛化性。
技术关键词
机器人控制方法
机器人抓取
视觉
物体
深度图像信息
末端执行器
示教数据
网络控制
生成特征向量
重建点云
手眼标定
处理器
人类
坐标系
序列
文本
计算机设备
系统为您推荐了相关专利信息
视觉联合标定方法
环境图像数据
车道
线特征
RANSAC算法
工业机器人机械
运动路径规划方法
工作点
矩阵
坐标
导航控制系统
惯性导航数据
多模态
激光点云数据
设备位姿