端到端的语音合成方法、装置、设备及介质

正文

推荐专利

端到端的语音合成方法、装置、设备及介质

申请号：CN202410841365

申请日期：2024-06-26

公开号：CN118645084A

公开日期：2024-09-13

类型：发明专利

摘要

本发明公开了一种端到端的语音合成方法，该方法包括获取待转换文本以及音频数据，并将待转换文本和音频数据输入到语音合成模型中；语音合成模型包括情感打分器、文本编码器、随机时间预测器、单调对齐搜索和合成解码器；通过情感打分器对音频数据进行情感识别，得到情感强度；通过文本编码器对待转换文本和情感强度进行特征提取，得到文本特征；通过随机时间预测器对文本特征进行持续时间预测，得到音素持续时间分布；通过单调对齐搜索对音素持续时间分布和所述文本特征进行特征对齐，得到对齐特征；通过合成解码器对对齐特征进行语音合成，得到目标语音数据。本发明实现了在语音合成中增加情感强度的表达，使得语音合成的效果更佳。

技术关键词

转换文本文本编码器语音解码器上采样音频打分器强度注意力动态规划算法数据输入模块可读存储介质特征提取模块处理单元对齐模块处理器编码模块计算机设备

系统为您推荐了相关专利信息

一种基于多尺度特征融合的隐藏物体检测算法

多尺度特征融合物体检测粗略注意力机制网络

基于语音指令匹配技术的机器人拟人化语音工单报警系统

报警系统文本指令列表 TTS系统

一种基于Mamba模型的异构遥感图像变化检测系统及方法

光学解码器池化特征遥感图像变化检测编解码器编码器

一种基于鱼眼系统的地基云图分类方法及系统

融合视觉特征地基云图分类方法气象注意力机制交互特征

一种基于动态规划的实体分割方法、装置、设备及介质

语义实体分割方法动态规划算法对象

端到端的语音合成方法、装置、设备及介质

站点导航

APP 下载