摘要
本发明公开了一种自适应语音增强与分离方法及系统,首先利用毫米波信号确定说话人位置,并从特定位置处提取毫米波振动特征用以表达用户语音行为特征,随后将混合语音与毫米波振动特征输入设计的多模态深度学习网络以实现清晰的语音增强与分离。本发明无需提前确定说话人数量,为增强与分离任务提供了统一框架,支持任意说话人数量的自动语音增强或分离;同时,本发明利用公开音频数据集,设计了跨模态数据生成方法并构建了多模态数据集,该数据集用于深度增强与分离网络的预训练。本发明取得了优异的语音增强与分离性能,具有广泛应用前景。
技术关键词
条件生成对抗网络
音频特征
条件对抗生成网络
特征提取网络
身份
振动特征
信号
数据生成方法
深度学习网络
匈牙利算法
恒虚警率
特征提取模块
聚类
语音特征
时序
扬声器
数据模块
系统为您推荐了相关专利信息
智能驾驶系统
智能交互方法
指纹验证
身份验证
车门
遥控器配对方法
蓝牙广播包
音频特征
遥控器配对系统
电视盒
诊疗平台
远程传输方法
数据终端
移动通信技术
身份验证
语音
深度学习模型
文本规范化
bert模型
语义特征