摘要
本发明公开了一种无监督的视听分割方法、系统及电子设备,方法包括:获取视听数据集,提取得到音频特征和视觉特征;将音频和视觉两个模态的特征进行特征映射到公共特征空间,通过交叉注意力计算两个模态的特征关联,确定视频帧对声源目标的粗粒度定位;挖掘视觉特征的邻域语义关联,构建语义相似矩阵,对声源目标分割进行细粒度修正,得到第一声源目标分割图;根据音视特征交互学习,通过编解码网络生成第二声源目标分割图;将第一声源目标分割图和第二声源目标分割图进行对齐,得到优化后的最终视听分割结果。本发明实施例能够使得声源目标边界信息更准确,以及使得生成声源目标分割图时更加稳定和准确,可广泛应用于音视频处理技术领域。
技术关键词
视觉特征
语义
视听
分割方法
邻域特征
音频特征
无监督
代表
注意力
矩阵
编解码
融合特征
多层感知机
标签
多层卷积网络
空间金字塔池化
均值漂移算法
生成特征集
监督学习模型