摘要
本发明提供一种基于自适应多模态融合的具身智能机器人行为识别方法,对输入视频由多模态特征提取模块进行特征提取分别得到RGB模态原始特征、光流模态原始特征和边缘模态原始特征;由跨模态自适应模块采用自注意力机制和交叉注意力机制实现不同模态特征的自适应对齐,得到对齐后的融合特征;得到时序编码后的特征;将时序编码后的特征通过全连接分类器预测得到行为类别;对多模态融合行为识别模型进行训练后得到训练后的模型;得到行为识别结果;本发明能够从不同维度更全面描述视频行为特征,能够实现多模态数据的有效融合与对齐,能够显著提升识别准确率,降低计算复杂度,并能够提高复杂环境下的鲁棒性。
技术关键词
智能机器人
多模态
特征提取器
识别方法
特征提取模块
时序
交叉注意力机制
边缘检测算法
输出特征
分类器
跨模态
模态特征
融合特征提取
图像
视频
系统为您推荐了相关专利信息
物流仓储系统
分拣机构
分拣平台
数据传输模块
识别标签
高危作业
监测预警系统
多头注意力机制
高原
作业设备
电化学系统
电化学特征
检测数据分析方法
光谱分析模型
基因序列数据
自动化监测方法
图像颜色特征
光照强度数据
时序
多模态