一种无监督的视听分割方法、系统及电子设备

正文

推荐专利

申请号：CN202411589379

申请日期：2024-11-08

公开号：CN119559971B

公开日期：2025-12-02

类型：发明专利

摘要

本发明公开了一种无监督的视听分割方法、系统及电子设备，方法包括：获取视听数据集，提取得到音频特征和视觉特征；将音频和视觉两个模态的特征进行特征映射到公共特征空间，通过交叉注意力计算两个模态的特征关联，确定视频帧对声源目标的粗粒度定位；挖掘视觉特征的邻域语义关联，构建语义相似矩阵，对声源目标分割进行细粒度修正，得到第一声源目标分割图；根据音视特征交互学习，通过编解码网络生成第二声源目标分割图；将第一声源目标分割图和第二声源目标分割图进行对齐，得到优化后的最终视听分割结果。本发明实施例能够使得声源目标边界信息更准确，以及使得生成声源目标分割图时更加稳定和准确，可广泛应用于音视频处理技术领域。

技术关键词

视觉特征语义视听分割方法邻域特征音频特征无监督代表注意力矩阵编解码融合特征多层感知机标签多层卷积网络空间金字塔池化均值漂移算法生成特征集监督学习模型

一种无监督的视听分割方法、系统及电子设备

站点导航

APP 下载