摘要
本发明提供了一种基于多模态流匹配的具身机器人动作预测方法及装置,涉及智能机器人的技术领域,包括:获取指令文本和机器人采集的图像特征集合,以及与各时刻位置的图像特征对应的深度图像集合;针对图像特征集合进行特征拼接处理和特征精炼处理,得到图像序列特征集合,并基于图像序列特征集合,对深度图像集合进行特征融合处理,确定目标视觉特征;通过将指令文本中的文本特征与目标视觉特征融合,确定文本视觉模态特征信息,并基于文本视觉模态特征信息,对机器人机械臂的动作进行预测,确定运动位姿预测特征。本发明可以显著提升具身机器人动作预测的准确率。
技术关键词
动作预测方法
视觉特征
序列特征
模态特征
机器人
预测特征
计算机可执行指令
图像
多模态
注意力模型
运动特征
语义
编码特征
反馈特征
文本编码器
机械臂
动作预测装置
系统为您推荐了相关专利信息
通信终端
通信覆盖范围
光信号
水下无线光通信
数据接口
新能源电机
工位底座
上料方法
抓取零部件
驱动台车
手术机器人
RFID识别装置
刀柄座
刀具
安装结构
气体绝缘设备
频域特征
边界特征
多模态特征
状态监测数据