一种提升音素发音时长准确性的语音合成方法、装置

正文

推荐专利

申请号：CN202410873940

申请日期：2024-07-02

公开号：CN118430512B

公开日期：2024-10-22

类型：发明专利

摘要

本发明提供了一种提升音素发音时长准确性的语音合成方法、装置，涉及语音合成技术领域，该方法基于外部对齐的方式，提出了一种文本发音时长修正的方案，使得每个字的发音更加准确，从而帮助模型更好的依赖于外部对齐的结果。这种方式不需要重新训练一个外部对齐工具，并可作为一个通用模块嵌入到不同的TTS合成模型中，使得生成的音频质量更高。

技术关键词

音频编解码器发音文本时间序列信息语音编码掩码矩阵对齐工具模型训练方法网络索引标签时序字典元素

系统为您推荐了相关专利信息

基于定时任务的第三方云服务数据同步处理方法及系统

数据同步异步方式贝叶斯信息准则流量控制机制标识

任务处理方法及计算设备

共享存储空间查询关键词语义向量分词存储程序指令

独立处理风格和内容特征相结合的中文手写字体迁移方法

手写字体风格迁移方法字符样本

基于人工智能的视频稿件异常数据检测方法及系统

语义标签异常数据检测方法视觉特征语义特征图像

一种新增厂站节点的电网潮流图自适应构建方法

布局布线算法数据完整性校验布线通道节点位置信息

一种提升音素发音时长准确性的语音合成方法、装置

站点导航

APP 下载