基于视觉语言大模型的机器人操纵方法

AITNT
正文
推荐专利
基于视觉语言大模型的机器人操纵方法
申请号:CN202410784930
申请日期:2024-06-18
公开号:CN118559711A
公开日期:2024-08-30
类型:发明专利
摘要
基于视觉语言大模型的机器人操纵方法,本发明涉及人工智能和具身智能领域,具体涉及基于视觉语言大模型的机器人操纵方法。本发明的目的是为了解决现有机器人理解指令及视觉环境后执行的操纵任务完成准确率低的问题。过程为:将语言指令文本和深度相机捕获的RGBD图像输入视觉语言大模型;视觉语言大模型的PC机输出三维位置坐标、三维旋转位姿和机械爪的开闭状态;视觉语言大模型机械臂上Jetson Nano端通过ROS接收三维位置坐标、三维旋转位姿和机械爪的开闭状态;对接收到的三维位置坐标、三维旋转位姿和机械爪的开闭状态信息进行逆运动学解算,将解算后的各关节角度输入舵机,对舵机进行PID控制完成机械臂的动作。
技术关键词
机器人操纵方法 深度相机 语言编码器 视觉 PC机 机械臂 训练语言模型 坐标 逆运动学 多层感知机 主控板 文本 ROS系统 语义分割模型 总线舵机 指令 图像 算法模型
系统为您推荐了相关专利信息
1
实时数据流环境下的车辆轨迹聚类与跟踪系统及方法
数据流环境 数据处理模块 跟踪系统 车辆轨迹跟踪 地磁传感器
2
基于神经网络的非均质硬岩层连续采掘截割控制方法
深度神经网络模型 截割控制方法 截割机构 采掘作业 卷积神经网络模型
3
手眼标定方法和装置、介质、计算机设备和程序产品
定位点 样本 关系 手眼标定方法 图像
4
基于人工智能的活体检测方法、装置、设备及介质
活体检测方法 文本 活体检测装置 关键点 输入模块
5
智能体的场景问答模型的生成方法、装置、设备及介质
场景 问答模型 答案 生成规则 生成方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号