摘要
本申请公开一种基于视觉语言模型的机器人控制方法、装置及机器人,属于人工智能技术领域。方法包括:获取交互数据和图像数据;将交互数据输入至行动感知视觉语言模型中,行动感知视觉语言模型基于交互数据确定任务,根据任务从图像数据中识别任务对应的控制对象,输出控制对象的运动学参数;基于任务和运动学参数控制机器人操作控制对象。本申请通过使行动感知视觉语言模型以控制对象为中心,根据交互数据和图像数据定位控制对象中可操作的部分并提供必要的关节信息及执行操作,模型的输出与被控对象相关,而不与机器人硬件相关,从而无需针对机器人的硬件配置和能力量身定制,能够适应不同的机器人配置,提高对机器人控制的通用性和适应性。
技术关键词
机器人控制方法
关节结构
视觉
样本
图像
数据
操作控制对象
参数
大语言模型
人工智能技术
运动特征
文本
处理器
输入模块
两阶段
指令
系统为您推荐了相关专利信息
视频流
VPX架构
视频矩阵
卷积神经网络模型
时间段
车道线检测方法
形状先验信息
注意力
因子
Sigmoid函数
人脸识别算法
直方图均衡化
深度卷积神经网络
亮度
人脸特征
医学图像分割方法
医学图像分割模型
医学图像数据集
注意力
图像分割技术
车牌识别方法
字符识别模型
字母
结构单元
多路径