一种基于统一架构的声音分离与目标声音提取方法

正文

推荐专利

申请号：CN202510940403

申请日期：2025-07-08

公开号：CN120748429A

公开日期：2025-10-03

类型：发明专利

摘要

本发明公开了一种基于统一架构的声音分离与目标声音提取方法，涉及音频信号处理技术领域，包括：在第一训练阶段，采用吸引子网络估计混合音频信号中的声源数量，生成吸引子嵌入；将吸引子嵌入输入到分离主干网络，生成分离后的声音；在第二训练阶段，采用多模态线索处理网络处理多种模态的线索信息，生成线索嵌入；随机选择吸引子嵌入或线索嵌入作为分离主干网络的输入；在训练阶段，计算吸引子嵌入和线索嵌入之间的对齐损失函数；在推理阶段，如果没有线索信息，执行声音分离任务；如果有1至3个线索信息，执行目标声音提取任务。本发明根据输入的线索情况灵活选择执行任务，具有更好的适应性和灵活性，适用于复杂的声音场景。

技术关键词

多模态线索网络专用编码器多头注意力机制阶段解码器音频信号处理技术声音编码器掩膜声音类别文本编码器视频编码器分离器线性模块

系统为您推荐了相关专利信息

基于多任务学习多模式出行流协同预测方法、系统及装置

依赖特征出行方式协同预测方法特征提取模块流量预测模型

基于改进梦境优化算法的并联机器人轨迹优化方法

并联机器人轨迹优化方法轨迹优化技术变异策略多项式

食品新鲜度检测方法、装置、设备及存储介质

气体检测食品指标食品新鲜度检测气味特征

基于物理信息神经网络的耙吸挖泥船产量端到端预测系统和方法

预测系统泥泵神经网络模型可视化模块物理

一种基于轻量级CGC-YOLO的绝缘子缺陷检测方法

绝缘子缺陷注意力机制卷积模块输电线路绝缘子输出特征

一种基于统一架构的声音分离与目标声音提取方法

站点导航

APP 下载