基于视觉语言模型的机器人控制方法、装置及机器人

正文

推荐专利

申请号：CN202410938016

申请日期：2024-07-12

公开号：CN118832580A

公开日期：2024-10-25

类型：发明专利

摘要

本申请公开一种基于视觉语言模型的机器人控制方法、装置及机器人，属于人工智能技术领域。方法包括：获取交互数据和图像数据；将交互数据输入至行动感知视觉语言模型中，行动感知视觉语言模型基于交互数据确定任务，根据任务从图像数据中识别任务对应的控制对象，输出控制对象的运动学参数；基于任务和运动学参数控制机器人操作控制对象。本申请通过使行动感知视觉语言模型以控制对象为中心，根据交互数据和图像数据定位控制对象中可操作的部分并提供必要的关节信息及执行操作，模型的输出与被控对象相关，而不与机器人硬件相关，从而无需针对机器人的硬件配置和能力量身定制，能够适应不同的机器人配置，提高对机器人控制的通用性和适应性。

技术关键词

机器人控制方法关节结构视觉样本图像数据操作控制对象参数大语言模型人工智能技术运动特征文本处理器输入模块两阶段指令

系统为您推荐了相关专利信息

基于VPX架构的视频矩阵模块实现方法

视频流 VPX架构视频矩阵卷积神经网络模型时间段

基于全局特征优化和形状特征感知聚合的车道线检测方法

车道线检测方法形状先验信息注意力因子 Sigmoid函数

自适应光照变化的人脸识别算法

人脸识别算法直方图均衡化深度卷积神经网络亮度人脸特征

一种基于KAN网络的医学图像分割方法

医学图像分割方法医学图像分割模型医学图像数据集注意力图像分割技术

一种基于深度学习的车牌识别方法及系统

车牌识别方法字符识别模型字母结构单元多路径

基于视觉语言模型的机器人控制方法、装置及机器人

站点导航

APP 下载