摘要
本发明公开一种面向多模态视频的全流程动作识别方法,首先,通过优化面向多模态数据的增强技术来转换和扩展现有数据,以扩大训练规模。使用更多的RGB数据集对骨干网络进行预训练,并通过迁移学习使其更好地适应新任务。其次,借助2D CNNs提取多模态空间特征,并与时间位移模块结合,实现与3D CNNs相当的多模态空间‑时间特征提取,同时提高计算效率。使用预测增强方法,以整合不同训练阶段的同一架构和不同架构模型的知识,从而从不同角度预测动作并充分利用目标信息。本发明既能克服数据稀缺和过拟合问题,又能提高时空建模能力,并有效融合多模态信息。
技术关键词
动作识别模型
动作识别方法
视频帧
阶段
面向多模态数据
融合多模态信息
卷积神经网络提取
超参数
分辨率
可读存储介质
图像
框架
模块
指令
时序
规模
计算机
系统为您推荐了相关专利信息
嵌入特征
图像检测方法
特征提取模型
特征提取模块
转换器模块
光伏发电工程
历史故障数据
LSTM模型
预测故障率
列表