摘要
本发明提出一种基于协同注意力机制的视听显著性预测方法与系统,该方法包括:获得预处理后的帧图像和处理后的音频信号;将预处理后的帧图像通过视觉编码进行特征提取,得到高层视觉特征;基于处理后的音频信号得到初步的音频特征;将初步的音频特征通过音频时序提取器进行处理,得到音频显著特征;通过高层视觉特征和音频显著特征得到视觉‑音频融合特征和音频‑视觉融合特征;基于视觉‑音频融合特征和音频‑视觉融合特征得到对齐融合后的视听特征;基于对齐融合后的视听特征得到显著预测图。本发明采用逐帧策略融合视听特征,在时空上精确对齐了音视频特征,且不再依赖于视频数据集的预训练,最终准确的定位到显著目标。
技术关键词
高层视觉特征
显著性预测方法
融合特征
协同注意力
视听
注意力机制
引导器
多模态
音频特征提取
解码器
音频编码
图像
时序
视频
系统为您推荐了相关专利信息
功率预测方法
分布式储能系统
多源异构数据
储能充电站
功率预测装置
检测网络模型
卷积特征提取
融合卷积网络
特征融合网络
检测头
语义分割模型
编码特征
融合多模态特征
解码
空间金字塔池化
医疗大数据
疾病
融合算法
HIS系统
后台服务器