无监督混合音频跨模态分离方法、系统、设备及存储介质

AITNT
正文
推荐专利
无监督混合音频跨模态分离方法、系统、设备及存储介质
申请号:CN202411558075
申请日期:2024-11-04
公开号:CN119541523B
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了无监督混合音频跨模态分离方法、系统、设备及存储介质,方法包括:视频内声源物体检测,采用目标检测算法提取视频中的目标物体和视觉特征;音视频数据预处理;跨模态音视语义对齐学习,包括音频视频语义一致性学习和音频视觉交叉注意力学习;无监督混合音频初步分离,获取若干分离后的音频信号;独立对抗学习,构建信号库,设置损失函数来拉近音频解码器生成信号的联合分布与随机抽选信号库中的样本之间联合分布的差异,以训练U‑Net音频解码器生成相互独立的分离音频信号;视觉指导的无监督音频分离。本发明方法基于独立对抗学习,兼顾混合音频分离后产生的单一音源的独立性和音源之间的呼应关联性,实现无监督混合音频分离。
技术关键词
音频解码器 无监督 跨模态 视觉特征 语义 注意力 物体检测 融合特征 音视频 音频特征 样本 时域音频信号 生成音频信号 短时傅里叶变换 模块
系统为您推荐了相关专利信息
1
一种视差指导的双目超分辨率图像重建方法及系统
超分辨率重建图像 超分辨率图像重建方法 超分辨率模型 噪声图像 高层语义特征
2
基于道路约束多源网络地理编码平台的地理坐标优化方法
编码平台 线段 端点 直线 分词
3
一种基于神经网络的电能表外观缺陷检测方法及系统
电能表外观 原始图像数据 缺陷检测方法 视觉特征 多层卷积神经网络
4
一种基于分层语义的日志序列异常检测方法
序列异常检测方法 双向长短期记忆网络 词语 半监督异常检测方法 框架
5
一种类脑多模态模型端到端预训练装置及方法
特征提取单元 多模态 模型预训练 数据编码 模态特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号