一种用于全景视频显著性预测的音视觉融合方法

正文

推荐专利

申请号：CN202510595411

申请日期：2025-05-09

公开号：CN120656099A

公开日期：2025-09-16

类型：发明专利

摘要

本发明提出一种用于全景视频显著性预测的音视觉融合方法，包括：输入全景视频，获取构成全景视频的视频帧及音频数据，对每一组视频帧计算切线图像得到全景视频的K组切线图像序列，对切线图像进行处理得到视觉模态特征，音频数据处理后得到音频数据样本，进一步得到增强后的全局时间语义信息，采用两阶段融合策略，得到最终的模态特征，采用动态卷积对最终模态特征进行解码得到高精度显著性图，该方法通过球面ViT时空建模、TSE增强及分层融合策略，显著提升了全景视频中人类注意力预测的准确性与鲁棒性，为沉浸式VR体验提供技术支持。

技术关键词

视觉融合方法模态特征全景视频嵌入特征交叉注意力机制频率转换融合策略声道音频特征语义两阶段图像音频数据处理球形短时傅里叶变换样本

一种用于全景视频显著性预测的音视觉融合方法

站点导航

APP 下载