端到端的语音合成方法、装置、计算机设备及存储介质

正文

推荐专利

申请号：CN202510654448

申请日期：2025-05-20

公开号：CN120526753A

公开日期：2025-08-22

类型：发明专利

摘要

本发明可应用于智慧医疗和金融领域，公开了一种端到端的语音合成方法、装置、计算机设备及存储介质，包括：获取待合成文本和参考音频；对所述待合成文本进行特征提取，得到包含上下文信息的文本特征；对所述参考音频进行特征提取，得到离散语音特征；基于神经网络模型构建所述文本特征和所述离散语音特征的对齐关系，生成当前语音帧的概率分布；基于声码器对所述当前语音帧的概率分布进行处理，得到所述待合成文本对应的语音波形，从而得到合成语音。本发明端到端的语音合成装置可从文本直接生成波形，简化了生成流程，可显著提升实时性，且通过神经网络模型显式学习文本与语音的对齐关系，不需要复杂的对齐操作，可进一步减少延迟。

技术关键词

语音特征神经网络模型构建声码器文本编码器音频特征提取模块计算机设备波形关系 GAN模型语音编码器可读存储介质处理器存储器

系统为您推荐了相关专利信息

一种基于对比学习的图像美学多属性评论生成方法

美学评论生成方法文本编码器图像编码器二分类模型

一种面向机器人的串行式多模态情绪识别方法

图像多模态情绪识别方法训练集序列机器人

一种光伏板运行状态监测方法及系统

状态监测方法功率光伏板神经网络模型构建曲线

一种基于大模型驱动的多模态健康监测方法、系统、终端及存储介质

健康监测方法健康监测程序视频流多模态交互健康监测数据

基于复合区分测度的跨模态多粒度幽默识别方法及装置

幽默识别方法跨模态度量决策数据挖掘技术

端到端的语音合成方法、装置、计算机设备及存储介质

站点导航

APP 下载