一种基于音视频模态信息协同感知的时序动作检测方法

正文

推荐专利

申请号：CN202510603201

申请日期：2025-05-12

公开号：CN120766174A

公开日期：2025-10-10

类型：发明专利

摘要

本发明公开了一种基于音视频模态信息协同感知的时序动作检测方法，属于计算机视觉中的时序动作检测领域；该方法采用双分支级联结构，同时建模每个模态内多尺度时序信息之间的内在关系。该方法以视频序列及其对应的音频信息作为输入，利用预训练的主干网络提取音视频模态信息对应的多级多尺度基础特征。单模态多尺度时序特征交互模块针对每个模态的多尺度时序特征，分别采用多粒度卷积和池化操作，将长短时动作的时序信息进行拼接，实现每个模态内部不同尺度特征语义上下文信息和时间信息之间的关系交互。多模态跨尺度空间特征感知模块引入交叉注意力机制及特征拆分机制，有效对齐不同模态跨尺度空间信息，同时获取强判别力跨模态多尺度动作线索。

技术关键词

时序动作检测方法时序特征交叉注意力机制视频特征提取音频特征提取多模态多尺度池化模块深度卷积神经网络模型多尺度特征线索上下文语义信息音视频交互跨模态

系统为您推荐了相关专利信息

基于多模态多尺度特征的超短期光伏功率预测方法及系统

卷积长短期记忆多尺度特征交叉注意力机制长短期记忆神经网络地基云图

一种基于日志溯源图的APT攻击检测方法

攻击检测方法入侵检测系统 PageRank算法节点特征文本情感分析

一种对话交互状态识别方法、系统、电子设备及存储介质

时序特征语义特征状态识别方法决策树模型状态识别系统

基于自注意力机制与GRU-LSTM融合的癫痫发作检测方法及系统

注意力机制癫痫支持向量机分类器多模态特征融合时序依赖关系

一种心冲击信号智能识别方法及装置

智能识别方法局部空间特征时序特征依赖特征双向长短期记忆网络

一种基于音视频模态信息协同感知的时序动作检测方法

站点导航

APP 下载