基于协同注意力机制的视听显著性预测方法与系统

AITNT
正文
推荐专利
基于协同注意力机制的视听显著性预测方法与系统
申请号:CN202510470452
申请日期:2025-04-15
公开号:CN119988894B
公开日期:2025-06-13
类型:发明专利
摘要
本发明提出一种基于协同注意力机制的视听显著性预测方法与系统,该方法包括:获得预处理后的帧图像和处理后的音频信号;将预处理后的帧图像通过视觉编码进行特征提取,得到高层视觉特征;基于处理后的音频信号得到初步的音频特征;将初步的音频特征通过音频时序提取器进行处理,得到音频显著特征;通过高层视觉特征和音频显著特征得到视觉‑音频融合特征和音频‑视觉融合特征;基于视觉‑音频融合特征和音频‑视觉融合特征得到对齐融合后的视听特征;基于对齐融合后的视听特征得到显著预测图。本发明采用逐帧策略融合视听特征,在时空上精确对齐了音视频特征,且不再依赖于视频数据集的预训练,最终准确的定位到显著目标。
技术关键词
高层视觉特征 显著性预测方法 融合特征 协同注意力 视听 注意力机制 引导器 多模态 音频特征提取 解码器 音频编码 图像 时序 视频
系统为您推荐了相关专利信息
1
分布式储能系统及其功率预测方法、装置、充电站和介质
功率预测方法 分布式储能系统 多源异构数据 储能充电站 功率预测装置
2
基于部分融合卷积网络的目标检测方法
检测网络模型 卷积特征提取 融合卷积网络 特征融合网络 检测头
3
图像处理方法、装置、存储介质、电子设备及AR眼镜
语义分割模型 编码特征 融合多模态特征 解码 空间金字塔池化
4
多维医疗大数据融合与疾病预测识别引擎的构建和应用
医疗大数据 疾病 融合算法 HIS系统 后台服务器
5
基于气候数据与地理信息的植被生长预测方法及系统
生长预测方法 静态特征 生长预测模型 植被 气候
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号