基于视觉语言模型的机器人控制方法、装置及机器人

AITNT
正文
推荐专利
基于视觉语言模型的机器人控制方法、装置及机器人
申请号:CN202410938016
申请日期:2024-07-12
公开号:CN118832580A
公开日期:2024-10-25
类型:发明专利
摘要
本申请公开一种基于视觉语言模型的机器人控制方法、装置及机器人,属于人工智能技术领域。方法包括:获取交互数据和图像数据;将交互数据输入至行动感知视觉语言模型中,行动感知视觉语言模型基于交互数据确定任务,根据任务从图像数据中识别任务对应的控制对象,输出控制对象的运动学参数;基于任务和运动学参数控制机器人操作控制对象。本申请通过使行动感知视觉语言模型以控制对象为中心,根据交互数据和图像数据定位控制对象中可操作的部分并提供必要的关节信息及执行操作,模型的输出与被控对象相关,而不与机器人硬件相关,从而无需针对机器人的硬件配置和能力量身定制,能够适应不同的机器人配置,提高对机器人控制的通用性和适应性。
技术关键词
机器人控制方法 关节结构 视觉 样本 图像 数据 操作控制对象 参数 大语言模型 人工智能技术 运动特征 文本 处理器 输入模块 两阶段 指令
系统为您推荐了相关专利信息
1
基于VPX架构的视频矩阵模块实现方法
视频流 VPX架构 视频矩阵 卷积神经网络模型 时间段
2
基于全局特征优化和形状特征感知聚合的车道线检测方法
车道线检测方法 形状先验信息 注意力 因子 Sigmoid函数
3
自适应光照变化的人脸识别算法
人脸识别算法 直方图均衡化 深度卷积神经网络 亮度 人脸特征
4
一种基于KAN网络的医学图像分割方法
医学图像分割方法 医学图像分割模型 医学图像数据集 注意力 图像分割技术
5
一种基于深度学习的车牌识别方法及系统
车牌识别方法 字符识别模型 字母 结构单元 多路径
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号