基于视觉语言大模型的机器人操纵方法

正文

推荐专利

基于视觉语言大模型的机器人操纵方法

申请号：CN202410784930

申请日期：2024-06-18

公开号：CN118559711A

公开日期：2024-08-30

类型：发明专利

摘要

基于视觉语言大模型的机器人操纵方法，本发明涉及人工智能和具身智能领域，具体涉及基于视觉语言大模型的机器人操纵方法。本发明的目的是为了解决现有机器人理解指令及视觉环境后执行的操纵任务完成准确率低的问题。过程为：将语言指令文本和深度相机捕获的RGBD图像输入视觉语言大模型；视觉语言大模型的PC机输出三维位置坐标、三维旋转位姿和机械爪的开闭状态；视觉语言大模型机械臂上Jetson Nano端通过ROS接收三维位置坐标、三维旋转位姿和机械爪的开闭状态；对接收到的三维位置坐标、三维旋转位姿和机械爪的开闭状态信息进行逆运动学解算，将解算后的各关节角度输入舵机，对舵机进行PID控制完成机械臂的动作。

技术关键词

机器人操纵方法深度相机语言编码器视觉 PC机机械臂训练语言模型坐标逆运动学多层感知机主控板文本 ROS系统语义分割模型总线舵机指令图像算法模型

系统为您推荐了相关专利信息

实时数据流环境下的车辆轨迹聚类与跟踪系统及方法

数据流环境数据处理模块跟踪系统车辆轨迹跟踪地磁传感器

基于神经网络的非均质硬岩层连续采掘截割控制方法

深度神经网络模型截割控制方法截割机构采掘作业卷积神经网络模型

手眼标定方法和装置、介质、计算机设备和程序产品

定位点样本关系手眼标定方法图像

基于人工智能的活体检测方法、装置、设备及介质

活体检测方法文本活体检测装置关键点输入模块

智能体的场景问答模型的生成方法、装置、设备及介质

场景问答模型答案生成规则生成方法

基于视觉语言大模型的机器人操纵方法

站点导航

APP 下载