摘要
本发明公开了一种基于统一架构的声音分离与目标声音提取方法,涉及音频信号处理技术领域,包括:在第一训练阶段,采用吸引子网络估计混合音频信号中的声源数量,生成吸引子嵌入;将吸引子嵌入输入到分离主干网络,生成分离后的声音;在第二训练阶段,采用多模态线索处理网络处理多种模态的线索信息,生成线索嵌入;随机选择吸引子嵌入或线索嵌入作为分离主干网络的输入;在训练阶段,计算吸引子嵌入和线索嵌入之间的对齐损失函数;在推理阶段,如果没有线索信息,执行声音分离任务;如果有1至3个线索信息,执行目标声音提取任务。本发明根据输入的线索情况灵活选择执行任务,具有更好的适应性和灵活性,适用于复杂的声音场景。
技术关键词
多模态线索
网络
专用编码器
多头注意力机制
阶段
解码器
音频信号处理技术
声音编码器
掩膜
声音类别
文本编码器
视频编码器
分离器
线性
模块
系统为您推荐了相关专利信息
依赖特征
出行方式
协同预测方法
特征提取模块
流量预测模型
并联机器人
轨迹优化方法
轨迹优化技术
变异策略
多项式
绝缘子缺陷
注意力机制
卷积模块
输电线路绝缘子
输出特征