基于协同注意力机制的视听显著性预测方法与系统

正文

推荐专利

申请号：CN202510470452

申请日期：2025-04-15

公开号：CN119988894B

公开日期：2025-06-13

类型：发明专利

摘要

本发明提出一种基于协同注意力机制的视听显著性预测方法与系统，该方法包括：获得预处理后的帧图像和处理后的音频信号；将预处理后的帧图像通过视觉编码进行特征提取，得到高层视觉特征；基于处理后的音频信号得到初步的音频特征；将初步的音频特征通过音频时序提取器进行处理，得到音频显著特征；通过高层视觉特征和音频显著特征得到视觉‑音频融合特征和音频‑视觉融合特征；基于视觉‑音频融合特征和音频‑视觉融合特征得到对齐融合后的视听特征；基于对齐融合后的视听特征得到显著预测图。本发明采用逐帧策略融合视听特征，在时空上精确对齐了音视频特征，且不再依赖于视频数据集的预训练，最终准确的定位到显著目标。

技术关键词

高层视觉特征显著性预测方法融合特征协同注意力视听注意力机制引导器多模态音频特征提取解码器音频编码图像时序视频

系统为您推荐了相关专利信息

分布式储能系统及其功率预测方法、装置、充电站和介质

功率预测方法分布式储能系统多源异构数据储能充电站功率预测装置

基于部分融合卷积网络的目标检测方法

检测网络模型卷积特征提取融合卷积网络特征融合网络检测头

图像处理方法、装置、存储介质、电子设备及AR眼镜

语义分割模型编码特征融合多模态特征解码空间金字塔池化

多维医疗大数据融合与疾病预测识别引擎的构建和应用

医疗大数据疾病融合算法 HIS系统后台服务器

基于气候数据与地理信息的植被生长预测方法及系统

生长预测方法静态特征生长预测模型植被气候

基于协同注意力机制的视听显著性预测方法与系统

站点导航

APP 下载