摘要
本发明属于视听事件定位技术领域,具体涉及一种视听事件定位方法和计算机设备。将一段视频的视觉、音频数据输入至训练后的视听事件定位模型,得到视听事件定位结果;其中,视听事件定位模型包括单模态特征提取模块、多模态协同状态空间模块、特征融合模块、多模态增强状态空间模块和事件预测模块。其中的多模态协同状态空间模块可以学习视听模态间共享的全局上下文信息和各模态特定的特征信息,多模态增强状态空间模块可以学习特征融合结果的全局上下文信息。本发明可以实现视觉与音频模态的高效融合,优化细粒度信息的挖掘,提升了视听事件定位任务的整体性能。
技术关键词
事件定位方法
局部特征提取
空间模块
视听
多模态协同
特征提取模块
视觉
全局特征提取
音频特征
学习特征
计算机设备
音频数据处理
频谱特征
时序特征
定位技术
融合特征
系统为您推荐了相关专利信息
故障分析方法
故障分析模型
异常数据
时序依赖关系
故障类别
电子健康记录
药物推荐方法
全局特征提取
局部特征提取
序列
情绪识别方法
时频模块
多模态特征融合
深度学习模型
空间模块
噪声主动控制方法
振动加速度信号
信号特征
路面
新能源汽车