基于多编码器特征解耦的跨语种语音合成系统及方法

AITNT
正文
推荐专利
基于多编码器特征解耦的跨语种语音合成系统及方法
申请号:CN202510450232
申请日期:2025-04-11
公开号:CN119993119B
公开日期:2025-06-24
类型:发明专利
摘要
本发明涉及语音合成技术领域,尤其涉及一种基于多编码器特征解耦的跨语种语音合成系统及方法。采用如下技术方案:使用多编码器的音频编码器,对音频数据进行多特征解耦得到多种音频隐变量,再通过将多种音频隐变量进行拼接,再由文本隐变量进行拟合,最终由解码器解码得到输出音频。本发明的有益效果在于:便于文本隐变量进行拟合,从而提高跨语种语音合成准确度;且使用多种开源的单语种语音数据集,解决了现有方法依赖多语种语音音频价格高、难以扩展到更多语种的问题,通过使用单语种的开源数据集,可以通过统一的文本、音频处理方法,将任何语种添加到模型中,使得模型具有更强的鲁棒性和泛用性。
技术关键词
语音音频数据 编码器特征 变量 音频编码器 文本编码器 双向长短期记忆网络 解码器 模型训练模块 注意力 积层 多语种语音 发音字典 序列
系统为您推荐了相关专利信息
1
基于可解释航向信息实时判别分析的偏振罗盘定向方法
偏振罗盘 定向方法 判别分析方法 指数 判别特征
2
一种针对非法RIS场景的ISAC系统安全传输方法
系统安全传输方法 Schur算法 信道 波束成形设计 场景
3
一种基于裂隙拓扑参数的煤岩失稳前兆识别方法及系统
识别方法 微地震监测系统 一维拓扑结构 门控循环单元 裂隙网络
4
一种基于动态事件触发的电力线巡检机器人的控制方法
电力线巡检机器人 动态 因子 历史监测数据 实时监测数据
5
基于时空K函数及蒙特卡洛模拟的数据分析方法及装置
数据分析方法 生成多尺度 可视化参数 自定义参数 变量
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号