一种提升音素发音时长准确性的语音合成方法、装置

AITNT
正文
推荐专利
一种提升音素发音时长准确性的语音合成方法、装置
申请号:CN202410873940
申请日期:2024-07-02
公开号:CN118430512B
公开日期:2024-10-22
类型:发明专利
摘要
本发明提供了一种提升音素发音时长准确性的语音合成方法、装置,涉及语音合成技术领域,该方法基于外部对齐的方式,提出了一种文本发音时长修正的方案,使得每个字的发音更加准确,从而帮助模型更好的依赖于外部对齐的结果。这种方式不需要重新训练一个外部对齐工具,并可作为一个通用模块嵌入到不同的TTS合成模型中,使得生成的音频质量更高。
技术关键词
音频编解码器 发音 文本 时间序列信息 语音编码 掩码矩阵 对齐工具 模型训练方法 网络 索引 标签 时序 字典 元素
系统为您推荐了相关专利信息
1
基于定时任务的第三方云服务数据同步处理方法及系统
数据同步 异步方式 贝叶斯信息准则 流量控制机制 标识
2
任务处理方法及计算设备
共享存储空间 查询关键词 语义向量 分词 存储程序指令
3
独立处理风格和内容特征相结合的中文手写字体迁移方法
手写字体 风格 迁移方法 字符 样本
4
基于人工智能的视频稿件异常数据检测方法及系统
语义标签 异常数据检测方法 视觉特征 语义特征 图像
5
一种新增厂站节点的电网潮流图自适应构建方法
布局 布线算法 数据完整性校验 布线通道 节点位置信息
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号