一种基于音视频模态信息协同感知的时序动作检测方法

AITNT
正文
推荐专利
一种基于音视频模态信息协同感知的时序动作检测方法
申请号:CN202510603201
申请日期:2025-05-12
公开号:CN120766174A
公开日期:2025-10-10
类型:发明专利
摘要
本发明公开了一种基于音视频模态信息协同感知的时序动作检测方法,属于计算机视觉中的时序动作检测领域;该方法采用双分支级联结构,同时建模每个模态内多尺度时序信息之间的内在关系。该方法以视频序列及其对应的音频信息作为输入,利用预训练的主干网络提取音视频模态信息对应的多级多尺度基础特征。单模态多尺度时序特征交互模块针对每个模态的多尺度时序特征,分别采用多粒度卷积和池化操作,将长短时动作的时序信息进行拼接,实现每个模态内部不同尺度特征语义上下文信息和时间信息之间的关系交互。多模态跨尺度空间特征感知模块引入交叉注意力机制及特征拆分机制,有效对齐不同模态跨尺度空间信息,同时获取强判别力跨模态多尺度动作线索。
技术关键词
时序动作检测方法 时序特征 交叉注意力机制 视频特征提取 音频特征提取 多模态 多尺度池化 模块 深度卷积神经网络模型 多尺度特征 线索 上下文语义信息 音视频交互 跨模态
系统为您推荐了相关专利信息
1
基于多模态多尺度特征的超短期光伏功率预测方法及系统
卷积长短期记忆 多尺度特征 交叉注意力机制 长短期记忆神经网络 地基云图
2
一种基于日志溯源图的APT攻击检测方法
攻击检测方法 入侵检测系统 PageRank算法 节点特征 文本情感分析
3
一种对话交互状态识别方法、系统、电子设备及存储介质
时序特征 语义特征 状态识别方法 决策树模型 状态识别系统
4
基于自注意力机制与GRU-LSTM融合的癫痫发作检测方法及系统
注意力机制 癫痫 支持向量机分类器 多模态特征融合 时序依赖关系
5
一种心冲击信号智能识别方法及装置
智能识别方法 局部空间特征 时序特征 依赖特征 双向长短期记忆网络
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号