摘要
基于视觉语言大模型的机器人操纵方法,本发明涉及人工智能和具身智能领域,具体涉及基于视觉语言大模型的机器人操纵方法。本发明的目的是为了解决现有机器人理解指令及视觉环境后执行的操纵任务完成准确率低的问题。过程为:将语言指令文本和深度相机捕获的RGBD图像输入视觉语言大模型;视觉语言大模型的PC机输出三维位置坐标、三维旋转位姿和机械爪的开闭状态;视觉语言大模型机械臂上Jetson Nano端通过ROS接收三维位置坐标、三维旋转位姿和机械爪的开闭状态;对接收到的三维位置坐标、三维旋转位姿和机械爪的开闭状态信息进行逆运动学解算,将解算后的各关节角度输入舵机,对舵机进行PID控制完成机械臂的动作。
技术关键词
机器人操纵方法
深度相机
语言编码器
视觉
PC机
机械臂
训练语言模型
坐标
逆运动学
多层感知机
主控板
文本
ROS系统
语义分割模型
总线舵机
指令
图像
算法模型
系统为您推荐了相关专利信息
数据流环境
数据处理模块
跟踪系统
车辆轨迹跟踪
地磁传感器
深度神经网络模型
截割控制方法
截割机构
采掘作业
卷积神经网络模型
活体检测方法
文本
活体检测装置
关键点
输入模块