摘要
本发明公开了一种基于音视频模态信息协同感知的时序动作检测方法,属于计算机视觉中的时序动作检测领域;该方法采用双分支级联结构,同时建模每个模态内多尺度时序信息之间的内在关系。该方法以视频序列及其对应的音频信息作为输入,利用预训练的主干网络提取音视频模态信息对应的多级多尺度基础特征。单模态多尺度时序特征交互模块针对每个模态的多尺度时序特征,分别采用多粒度卷积和池化操作,将长短时动作的时序信息进行拼接,实现每个模态内部不同尺度特征语义上下文信息和时间信息之间的关系交互。多模态跨尺度空间特征感知模块引入交叉注意力机制及特征拆分机制,有效对齐不同模态跨尺度空间信息,同时获取强判别力跨模态多尺度动作线索。
技术关键词
时序动作检测方法
时序特征
交叉注意力机制
视频特征提取
音频特征提取
多模态
多尺度池化
模块
深度卷积神经网络模型
多尺度特征
线索
上下文语义信息
音视频交互
跨模态
系统为您推荐了相关专利信息
卷积长短期记忆
多尺度特征
交叉注意力机制
长短期记忆神经网络
地基云图
攻击检测方法
入侵检测系统
PageRank算法
节点特征
文本情感分析
时序特征
语义特征
状态识别方法
决策树模型
状态识别系统
注意力机制
癫痫
支持向量机分类器
多模态特征融合
时序依赖关系
智能识别方法
局部空间特征
时序特征
依赖特征
双向长短期记忆网络