摘要
本发明属于智能语音领域,公开了一种基于注意力特征融合的非平行任意到任意语音转换方法,首先对原始语音与目标语音分别提取内容特征、说话人特征与音律特征;使用由时序实例归一化注意力所构成的瓶颈层对所提取的特征进行耦合得到特征图;联合时序实例归一化与高效通道注意力机制,在时频域动态整合局部音素细节与全局声学特征,完成声学迁移;最终通过神经声码器生成合成语音。本发明使用实例归一化与孪生损失增强对噪声和非平行数据的适应性与泛化性,以达到同时兼顾内容完整度和说话人特征相似度的语音合成效果;此外,本发明通过设置三种不同的训练与转换场景,提高的了模型的泛化性与鲁棒性,以实现高质量的多条目语音转换。
技术关键词
语音转换方法
通道注意力机制
声学特征
声码器
特征提取模块
时序
高效多尺度
错误率
瓶颈
深度学习模型
智能语音
数据
场景
滤波算法
通信系统
动态
重构
采样率