一种基于多模态大视觉语言模型的智能机械臂操作方法和系统

正文

推荐专利

申请号：CN202510005797

申请日期：2025-01-03

公开号：CN119567268B

公开日期：2025-10-10

类型：发明专利

摘要

本发明公开了一种基于多模态大视觉语言模型的机械臂操作方法，首先通过视觉传感器采集机械臂操作场景的图像数据，并结合语音识别模块或文本输入模块获取用户指令，将自然语言指令与视觉场景数据输入至多模态大视觉语言模型进行多模态任务解析。模型对场景中目标物体的类别、位置及其属性进行识别，并结合输入指令生成具体的操作序列。随后，系统根据解析生成的操作序列，直接驱动机械臂执行相应任务，包括目标物体的抓取、移动、放置等具体动作，在任务执行过程中，机械臂根据预先生成的操作序列依次完成动作。本发明有效解决了现有技术中机械臂对复杂任务指令解析不准确、操作灵活性和适应性不足以及动态环境中实时响应能力较差的问题。

技术关键词

智能机械臂坐标物体终点多模态像素驱动机械臂序列视觉指令图像手眼标定元素语音识别模块运动分辨率规划

系统为您推荐了相关专利信息

一种基于电力施工用的临近带电作业计算辅助测算系统

带电作业影像获取模块测距模块管控主机超声波测距传感器

云视频内容管理方法、系统及存储介质

视频内容管理方法对象热点内容管理系统注视点

一种多中心极坐标系无插值图像融合方法及设备

滤波器图像融合方法平台坐标系信号

一种智能化的产品自动发布方法

图片关键词多模态文本编码器图文

一种基于二阶矩的神经网络波前重构方法

波前重构方法光斑 Adam算法多层卷积神经网络自动微分技术

一种基于多模态大视觉语言模型的智能机械臂操作方法和系统

站点导航

APP 下载