摘要
本发明提出一种用于全景视频显著性预测的音视觉融合方法,包括:输入全景视频,获取构成全景视频的视频帧及音频数据,对每一组视频帧计算切线图像得到全景视频的K组切线图像序列,对切线图像进行处理得到视觉模态特征,音频数据处理后得到音频数据样本,进一步得到增强后的全局时间语义信息,采用两阶段融合策略,得到最终的模态特征,采用动态卷积对最终模态特征进行解码得到高精度显著性图,该方法通过球面ViT时空建模、TSE增强及分层融合策略,显著提升了全景视频中人类注意力预测的准确性与鲁棒性,为沉浸式VR体验提供技术支持。
技术关键词
视觉融合方法
模态特征
全景视频
嵌入特征
交叉注意力机制
频率转换
融合策略
声道
音频特征
语义
两阶段
图像
音频数据处理
球形
短时傅里叶变换
样本