一种用于全景视频显著性预测的音视觉融合方法

AITNT
正文
推荐专利
一种用于全景视频显著性预测的音视觉融合方法
申请号:CN202510595411
申请日期:2025-05-09
公开号:CN120656099A
公开日期:2025-09-16
类型:发明专利
摘要
本发明提出一种用于全景视频显著性预测的音视觉融合方法,包括:输入全景视频,获取构成全景视频的视频帧及音频数据,对每一组视频帧计算切线图像得到全景视频的K组切线图像序列,对切线图像进行处理得到视觉模态特征,音频数据处理后得到音频数据样本,进一步得到增强后的全局时间语义信息,采用两阶段融合策略,得到最终的模态特征,采用动态卷积对最终模态特征进行解码得到高精度显著性图,该方法通过球面ViT时空建模、TSE增强及分层融合策略,显著提升了全景视频中人类注意力预测的准确性与鲁棒性,为沉浸式VR体验提供技术支持。
技术关键词
视觉融合方法 模态特征 全景视频 嵌入特征 交叉注意力机制 频率转换 融合策略 声道 音频特征 语义 两阶段 图像 音频数据处理 球形 短时傅里叶变换 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号