一种视听事件定位方法和计算机设备

AITNT
正文
推荐专利
一种视听事件定位方法和计算机设备
申请号:CN202510119534
申请日期:2025-01-24
公开号:CN120032297A
公开日期:2025-05-23
类型:发明专利
摘要
本发明属于视听事件定位技术领域,具体涉及一种视听事件定位方法和计算机设备。将一段视频的视觉、音频数据输入至训练后的视听事件定位模型,得到视听事件定位结果;其中,视听事件定位模型包括单模态特征提取模块、多模态协同状态空间模块、特征融合模块、多模态增强状态空间模块和事件预测模块。其中的多模态协同状态空间模块可以学习视听模态间共享的全局上下文信息和各模态特定的特征信息,多模态增强状态空间模块可以学习特征融合结果的全局上下文信息。本发明可以实现视觉与音频模态的高效融合,优化细粒度信息的挖掘,提升了视听事件定位任务的整体性能。
技术关键词
事件定位方法 局部特征提取 空间模块 视听 多模态协同 特征提取模块 视觉 全局特征提取 音频特征 学习特征 计算机设备 音频数据处理 频谱特征 时序特征 定位技术 融合特征
系统为您推荐了相关专利信息
1
基于CNN和Transformer协同的输电线路实时调控方法及系统
时序特征 融合特征 调控方法 调控策略 交互网络
2
一种储能系统的故障分析方法
故障分析方法 故障分析模型 异常数据 时序依赖关系 故障类别
3
一种基于特征融合和图构建的药物推荐方法及系统
电子健康记录 药物推荐方法 全局特征提取 局部特征提取 序列
4
基于DLKA和EEGNet的多模态情绪识别方法
情绪识别方法 时频模块 多模态特征融合 深度学习模型 空间模块
5
一种新能源汽车的噪声主动控制方法及系统
噪声主动控制方法 振动加速度信号 信号特征 路面 新能源汽车
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号