面向域外说话人适应场景的多层级解耦个性化语音合成方法及系统

正文

推荐专利

申请号：CN202411118674

申请日期：2024-08-15

公开号：CN119007704A

公开日期：2024-11-22

类型：发明专利

摘要

本发明提供面向域外说话人适应场景的多层级解耦个性化语音合成方法及系统，主要针对个性化语音合成中域外说话人音色难以准确捕捉的问题，通过全局说话人表征模块和细粒度说话人表征模块的创新结合，有效提升了零资源条件下域外说话人语音合成的性能。全局模块使用快速傅里叶卷积和多头注意力机制提取并优化说话人音色特征，增强模型对未见说话人的泛化能力。细粒度模块则利用预训练的语音识别技术细致解耦音素级别特征，通过注意力机制精准捕捉音色细节。实验结果显示，本发明方法在AISHELL3数据集上的表现优于现有技术，尤其在说话人特征向量余弦相似度等客观评价指标上取得显著进步，验证了其在处理未见说话人适应问题上的有效性和实用性。

技术关键词

个性化语音文本特征向量编码器音色特征音频多头注意力机制层级语音识别技术模块场景客观评价指标适配器解码器时域特征偏差代表

面向域外说话人适应场景的多层级解耦个性化语音合成方法及系统

站点导航

APP 下载