摘要
本发明公开了一种基于多模态大视觉语言模型的机械臂操作方法,首先通过视觉传感器采集机械臂操作场景的图像数据,并结合语音识别模块或文本输入模块获取用户指令,将自然语言指令与视觉场景数据输入至多模态大视觉语言模型进行多模态任务解析。模型对场景中目标物体的类别、位置及其属性进行识别,并结合输入指令生成具体的操作序列。随后,系统根据解析生成的操作序列,直接驱动机械臂执行相应任务,包括目标物体的抓取、移动、放置等具体动作,在任务执行过程中,机械臂根据预先生成的操作序列依次完成动作。本发明有效解决了现有技术中机械臂对复杂任务指令解析不准确、操作灵活性和适应性不足以及动态环境中实时响应能力较差的问题。
技术关键词
智能机械臂
坐标
物体
终点
多模态
像素
驱动机械臂
序列
视觉
指令
图像
手眼标定
元素
语音识别模块
运动
分辨率
规划
系统为您推荐了相关专利信息
带电作业
影像获取模块
测距模块
管控主机
超声波测距传感器
视频内容管理方法
对象
热点
内容管理系统
注视点
波前重构方法
光斑
Adam算法
多层卷积神经网络
自动微分技术