摘要
本发明公开了一种自适应语音增强与分离方法及系统,首先利用毫米波信号确定说话人位置,并从特定位置处提取毫米波振动特征用以表达用户语音行为特征,随后将混合语音与毫米波振动特征输入设计的多模态深度学习网络以实现清晰的语音增强与分离。本发明无需提前确定说话人数量,为增强与分离任务提供了统一框架,支持任意说话人数量的自动语音增强或分离;同时,本发明利用公开音频数据集,设计了跨模态数据生成方法并构建了多模态数据集,该数据集用于深度增强与分离网络的预训练。本发明取得了优异的语音增强与分离性能,具有广泛应用前景。
技术关键词
条件生成对抗网络
音频特征
条件对抗生成网络
特征提取网络
身份
振动特征
信号
数据生成方法
深度学习网络
匈牙利算法
恒虚警率
特征提取模块
聚类
语音特征
时序
扬声器
数据模块
系统为您推荐了相关专利信息
无人设备
网络安全功能
身份认证模块
防护系统
防护方法
表面形貌数据
可见光图像
网格映射方法
深度学习网络
深度学习预测