摘要
本发明涉及语音处理技术领域,可应用于金融及医疗领域,公开了语音增强方法、训练方法、装置、计算机设备及存储介质,语音增强方法包括:接收嘈杂语音输入,通过预训练的分解编解码器对嘈杂语音进行编码处理,得到隐藏表示;利用预训练的语义扩散模型对隐藏表示进行逐步去噪处理,得到清晰语音对应的语义令牌序列;将语义令牌序列与嘈杂语音的隐藏表示结合作为条件,通过预训练的声学扩散模型进行逐步去噪处理,得到清晰语音对应的声学令牌序列;将语义令牌序列和声学令牌序列输入分解编解码器的解码器,重建生成清晰语音信号。本发明显著提升了复杂噪声环境下语音增强的鲁棒性,降低了噪声对语音关键属性的干扰。
技术关键词
令牌
语义
编解码器
序列
生成语音
计算机设备
语音特征
处理器
信号
训练装置
跨模态
数据
可读存储介质
存储器
鲁棒性
噪声
编码器
系统为您推荐了相关专利信息
医疗命名实体识别方法
字符
多层次
多层感知机
语义特征
序列生成方法
模糊C均值聚类方法
气象预报数据
Mallat算法
新能源功率预测
列车
车站
策略搜索方法
神经网络预测模型
时间段