一种基于视觉语言大模型的机器人控制方法

正文

推荐专利

一种基于视觉语言大模型的机器人控制方法

申请号：CN202510460443

申请日期：2025-04-14

公开号：CN120363185A

公开日期：2025-07-25

类型：发明专利

摘要

本发明提供了一种基于视觉语言大模型的机器人控制方法，包括：通过采集人类操作示教数据，训练模仿学习网络；获取图像信息，并基于图像信息生成一系列抓取姿态，并获取抓取姿态质量评分；根据用户输入的文本指令，利用视觉语言大模型对各抓取姿态进行过滤；基于抓取姿态质量评分，选定过滤后各抓取姿态中的某一抓取姿态；根据选定的抓取姿态，控制机器人对待操作物体进行抓取；利用训练好的模仿学习网络控制机器人进行抓取待操作物体并与目标物体进行交互。本方法减少了对大量训练图片的依赖，在应对不同场景式具有较好的泛化性。

技术关键词

机器人控制方法机器人抓取视觉物体深度图像信息末端执行器示教数据网络控制生成特征向量重建点云手眼标定处理器人类坐标系序列文本计算机设备

系统为您推荐了相关专利信息

一种基于车道线提取的激光雷达视觉联合标定方法

视觉联合标定方法环境图像数据车道线特征 RANSAC算法

基于时序跨模态设计Mamba的视听分割方法

视觉特征音频特征状态空间模型扫描模块时序

基于图网络拓扑修正的老挝语文本图像识别方法及装置

文本图像识别网络拓扑特征字符融合特征节点

一种工业机器人机械臂最短运动路径规划方法及系统

工业机器人机械运动路径规划方法工作点矩阵坐标

基于多模态感知的导航控制系统、方法及智能移动设备

导航控制系统惯性导航数据多模态激光点云数据设备位姿

一种基于视觉语言大模型的机器人控制方法

站点导航

APP 下载