摘要
本发明公开了一种基于自回归类深度学习语音合成的可控输出方法及设备,属于自然语言处理和深度学习领域,包括步骤:基于自回归类深度学习语音合成完成对参考文本、参考语音、目标文本的语音合成;基于语音识别提取合成语音的待校对文本信息;基于校对匹配去除目标文本和待校对文本中所有非文字部分,分别提取目标文本音素和待校对文本音素,对目标文本音素和待校对文本音素进行音素匹配,输出匹配结果。若匹配结果为成功,则输出语音,否则重新进行以上步骤,直至校对匹配成功。本发明可实现自回归类深度学习语音合成的自动校对,改善自回归类深度学习语音合成中出现的漏词、重复、说错词的问题,提升自回归类深度学习语音合成的稳定性。
技术关键词
语音
深度学习模型
文本规范化
bert模型
语义特征
音频特征
编码
解码
自然语言
存储器
处理器
元素
发音
程序
关系
核心
算法
系统为您推荐了相关专利信息
空间分布特征
找矿靶区
特征提取算法
地球物理数据
优化预测模型
实体关系抽取方法
非结构化文本
融合深度学习
依存句法
实体关系数据
交通设施
智能调节方法
交通信号灯变化
亮度
图像