摘要
本发明涉及一种多模态人体动作识别方法,属于人体动作识别领域。通过ResNet152网络提取视频空间特征,Bi LSTM网络提取时间依赖特征,并进行特征编码。随后,利用改进的串联交叉注意力网络进行特征融合,其中交叉注意力模块采用随机脉冲滤波卷积矩阵进行初始化,将CNN的归纳偏差引入其中,提高模型数据有效性,使其更容易在小规模数据集上拟合。最终,融合特征通过全连接层和Softmax函数进行动作类别预测。本发明有效提升了多模态人体动作识别在小规模数据集上的性能,并增强了其普适性和通用性,适用于人机交互、监控视频、手势识别等多种场景。
技术关键词
人体动作识别方法
注意力
多模态
模态特征
融合特征
依赖特征
卷积神经网络提取
视频
骨骼特征
小规模
策略
模块
编码
分类器
滤波
脉冲
矩阵
系统为您推荐了相关专利信息
网络攻击检测方法
通信节点
微电网
网络攻击检测系统
通信拓扑结构
废气
吸附塔设备
处理过程数据
催化燃烧设备
设备状态数据
医学图像分割模型
融合特征
注意力
病灶分割方法
点击特征
量化评估系统
青少年
多模态数据管理
多模态医学影像
多人姿态估计
矩阵
实体
对话生成模型
对话推荐方法
双线性模型