基于自回归类深度学习语音合成的可控输出方法及设备

正文

推荐专利

申请号：CN202410954812

申请日期：2024-07-17

公开号：CN118506764B

公开日期：2024-10-11

类型：发明专利

摘要

本发明公开了一种基于自回归类深度学习语音合成的可控输出方法及设备，属于自然语言处理和深度学习领域，包括步骤：基于自回归类深度学习语音合成完成对参考文本、参考语音、目标文本的语音合成；基于语音识别提取合成语音的待校对文本信息；基于校对匹配去除目标文本和待校对文本中所有非文字部分，分别提取目标文本音素和待校对文本音素，对目标文本音素和待校对文本音素进行音素匹配，输出匹配结果。若匹配结果为成功，则输出语音，否则重新进行以上步骤，直至校对匹配成功。本发明可实现自回归类深度学习语音合成的自动校对，改善自回归类深度学习语音合成中出现的漏词、重复、说错词的问题，提升自回归类深度学习语音合成的稳定性。

技术关键词

语音深度学习模型文本规范化 bert模型语义特征音频特征编码解码自然语言存储器处理器元素发音程序关系核心算法

系统为您推荐了相关专利信息

多模态科研数据记录方法、系统、终端及存储介质

科研多模态非结构化文本数据录入系统数据字

一种基于机器学习的找矿预测方法

空间分布特征找矿靶区特征提取算法地球物理数据优化预测模型

一种融合深度学习与依存句法的工艺标准实体关系抽取方法

实体关系抽取方法非结构化文本融合深度学习依存句法实体关系数据

一种基于光纤显示的交通设施智能调节方法及系统

交通设施智能调节方法交通信号灯变化亮度图像

耳机的控制方法、耳机及存储介质

场景图像无线耳机技术物体模组

基于自回归类深度学习语音合成的可控输出方法及设备

站点导航

APP 下载