基于注意力特征融合的非平行任意到任意语音转换方法

正文

推荐专利

申请号：CN202510626108

申请日期：2025-05-15

公开号：CN120496503B

公开日期：2025-10-10

类型：发明专利

摘要

本发明属于智能语音领域，公开了一种基于注意力特征融合的非平行任意到任意语音转换方法，首先对原始语音与目标语音分别提取内容特征、说话人特征与音律特征；使用由时序实例归一化注意力所构成的瓶颈层对所提取的特征进行耦合得到特征图；联合时序实例归一化与高效通道注意力机制，在时频域动态整合局部音素细节与全局声学特征，完成声学迁移；最终通过神经声码器生成合成语音。本发明使用实例归一化与孪生损失增强对噪声和非平行数据的适应性与泛化性，以达到同时兼顾内容完整度和说话人特征相似度的语音合成效果；此外，本发明通过设置三种不同的训练与转换场景，提高的了模型的泛化性与鲁棒性，以实现高质量的多条目语音转换。

技术关键词

语音转换方法通道注意力机制声学特征声码器特征提取模块时序高效多尺度错误率瓶颈深度学习模型智能语音数据场景滤波算法通信系统动态重构采样率

基于注意力特征融合的非平行任意到任意语音转换方法

站点导航

APP 下载