基于多编码器特征解耦的跨语种语音合成系统及方法

正文

推荐专利

申请号：CN202510450232

申请日期：2025-04-11

公开号：CN119993119B

公开日期：2025-06-24

类型：发明专利

摘要

本发明涉及语音合成技术领域，尤其涉及一种基于多编码器特征解耦的跨语种语音合成系统及方法。采用如下技术方案：使用多编码器的音频编码器，对音频数据进行多特征解耦得到多种音频隐变量，再通过将多种音频隐变量进行拼接，再由文本隐变量进行拟合，最终由解码器解码得到输出音频。本发明的有益效果在于：便于文本隐变量进行拟合，从而提高跨语种语音合成准确度；且使用多种开源的单语种语音数据集，解决了现有方法依赖多语种语音音频价格高、难以扩展到更多语种的问题，通过使用单语种的开源数据集，可以通过统一的文本、音频处理方法，将任何语种添加到模型中，使得模型具有更强的鲁棒性和泛用性。

技术关键词

语音音频数据编码器特征变量音频编码器文本编码器双向长短期记忆网络解码器模型训练模块注意力积层多语种语音发音字典序列

系统为您推荐了相关专利信息

基于可解释航向信息实时判别分析的偏振罗盘定向方法

偏振罗盘定向方法判别分析方法指数判别特征

一种针对非法RIS场景的ISAC系统安全传输方法

系统安全传输方法 Schur算法信道波束成形设计场景

一种基于裂隙拓扑参数的煤岩失稳前兆识别方法及系统

识别方法微地震监测系统一维拓扑结构门控循环单元裂隙网络

一种基于动态事件触发的电力线巡检机器人的控制方法

电力线巡检机器人动态因子历史监测数据实时监测数据

基于时空K函数及蒙特卡洛模拟的数据分析方法及装置

数据分析方法生成多尺度可视化参数自定义参数变量

基于多编码器特征解耦的跨语种语音合成系统及方法

站点导航

APP 下载