端到端的语音合成方法、装置、计算机设备及存储介质

AITNT
正文
推荐专利
端到端的语音合成方法、装置、计算机设备及存储介质
申请号:CN202510654448
申请日期:2025-05-20
公开号:CN120526753A
公开日期:2025-08-22
类型:发明专利
摘要
本发明可应用于智慧医疗和金融领域,公开了一种端到端的语音合成方法、装置、计算机设备及存储介质,包括:获取待合成文本和参考音频;对所述待合成文本进行特征提取,得到包含上下文信息的文本特征;对所述参考音频进行特征提取,得到离散语音特征;基于神经网络模型构建所述文本特征和所述离散语音特征的对齐关系,生成当前语音帧的概率分布;基于声码器对所述当前语音帧的概率分布进行处理,得到所述待合成文本对应的语音波形,从而得到合成语音。本发明端到端的语音合成装置可从文本直接生成波形,简化了生成流程,可显著提升实时性,且通过神经网络模型显式学习文本与语音的对齐关系,不需要复杂的对齐操作,可进一步减少延迟。
技术关键词
语音特征 神经网络模型构建 声码器 文本编码器 音频 特征提取模块 计算机设备 波形 关系 GAN模型 语音编码器 可读存储介质 处理器 存储器
系统为您推荐了相关专利信息
1
一种基于对比学习的图像美学多属性评论生成方法
美学 评论生成方法 文本编码器 图像编码器 二分类模型
2
一种面向机器人的串行式多模态情绪识别方法
图像多模态 情绪识别方法 训练集 序列 机器人
3
一种光伏板运行状态监测方法及系统
状态监测方法 功率 光伏板 神经网络模型构建 曲线
4
一种基于大模型驱动的多模态健康监测方法、系统、终端及存储介质
健康监测方法 健康监测程序 视频流 多模态交互 健康监测数据
5
基于复合区分测度的跨模态多粒度幽默识别方法及装置
幽默识别方法 跨模态 度量 决策 数据挖掘技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号