摘要
本发明提出一种基于多模态大模型的人机协作机械臂控制方法,通过结合装配场景视觉信息、文本指令信息以及prompt信息输入至多模态大模型进行理解和任务分解,生成具有不同功能校验位的操作指令和机械臂控制代码。通过多模态大模型或零部件知识库检索结合DINO‑X模型得到目标物体的像素区域及坐标,根据机械臂末端执行器坐标系与视觉系统坐标系之间的映射关系,转换为机械臂的位姿坐标生成机械臂控制指令,结合具有不同功能校验位的操作指令和机械臂控制代码控制机械臂运动,实现通过多模态大模型结合语音指令、视觉信息推理决策精确、高效地生成机械臂控制指令的同时,克服多模态大模型幻觉问题导致的泛化性差和精度低的问题。
技术关键词
人机协作机械臂
多模态
视觉系统坐标系
机械臂末端执行器
控制机械臂运动
物体
指令
像素
场景
字典结构
文本
语音特征
图片
关节
系统为您推荐了相关专利信息
自主导航设备
多模态传感器
语义规则
鱼眼摄像头
生成控制指令
智能评估系统
视频采集单元
语音识别单元
多模态数据采集
数据采集单元
柔性触觉传感器
深度相机
分类网络
水果成熟度检测
分拣方法
模态检索方法
多模态
样本
文本特征向量
图像特征向量