摘要
本发明提供了一种提升音素发音时长准确性的语音合成方法、装置,涉及语音合成技术领域,该方法基于外部对齐的方式,提出了一种文本发音时长修正的方案,使得每个字的发音更加准确,从而帮助模型更好的依赖于外部对齐的结果。这种方式不需要重新训练一个外部对齐工具,并可作为一个通用模块嵌入到不同的TTS合成模型中,使得生成的音频质量更高。
技术关键词
音频编解码器
发音
文本
时间序列信息
语音编码
掩码矩阵
对齐工具
模型训练方法
网络
索引
标签
时序
字典
元素
系统为您推荐了相关专利信息
数据同步
异步方式
贝叶斯信息准则
流量控制机制
标识
共享存储空间
查询关键词
语义向量
分词
存储程序指令
语义标签
异常数据检测方法
视觉特征
语义特征
图像
布局
布线算法
数据完整性校验
布线通道
节点位置信息