一种视听事件定位方法和计算机设备

正文

推荐专利

一种视听事件定位方法和计算机设备

申请号：CN202510119534

申请日期：2025-01-24

公开号：CN120032297A

公开日期：2025-05-23

类型：发明专利

摘要

本发明属于视听事件定位技术领域，具体涉及一种视听事件定位方法和计算机设备。将一段视频的视觉、音频数据输入至训练后的视听事件定位模型，得到视听事件定位结果；其中，视听事件定位模型包括单模态特征提取模块、多模态协同状态空间模块、特征融合模块、多模态增强状态空间模块和事件预测模块。其中的多模态协同状态空间模块可以学习视听模态间共享的全局上下文信息和各模态特定的特征信息，多模态增强状态空间模块可以学习特征融合结果的全局上下文信息。本发明可以实现视觉与音频模态的高效融合，优化细粒度信息的挖掘，提升了视听事件定位任务的整体性能。

技术关键词

事件定位方法局部特征提取空间模块视听多模态协同特征提取模块视觉全局特征提取音频特征学习特征计算机设备音频数据处理频谱特征时序特征定位技术融合特征

系统为您推荐了相关专利信息

基于CNN和Transformer协同的输电线路实时调控方法及系统

时序特征融合特征调控方法调控策略交互网络

一种储能系统的故障分析方法

故障分析方法故障分析模型异常数据时序依赖关系故障类别

一种基于特征融合和图构建的药物推荐方法及系统

电子健康记录药物推荐方法全局特征提取局部特征提取序列

基于DLKA和EEGNet的多模态情绪识别方法

情绪识别方法时频模块多模态特征融合深度学习模型空间模块

一种新能源汽车的噪声主动控制方法及系统

噪声主动控制方法振动加速度信号信号特征路面新能源汽车

一种视听事件定位方法和计算机设备

站点导航

APP 下载