摘要
本发明涉及人工智能技术领域,公开了一种语音合成方法、装置、设备及介质,包括:获取待合成文本和参考音频;采用滑动窗口算法将待合成文本划分为多个文本段;基于参考音频和预训练的语音合成模型,生成每个文本段对应的音频波形;对每个文本段对应的音频波形进行语音合成,得到目标语音。通过上述方式,采用滑动窗口算法对输入文本进行分割,形成若干段更小、更易管理的文本段,将若干个文本段和参数音频输入语音合成模型,使得语音合成模型基于较短的文本段逐句生成音频,使得模型能够更加专注于每个片段的精确语音和语调细节,确保音频输出的准确性和自然流畅性,解决了由于文本长度超出典型长度参数引起的退化问题,提高语音生成的稳定性。
技术关键词
滑动窗口算法
字符
拼音
波形
文本特征向量
语音合成器
音频编码器
文本编码器
声学特征
数据
可读存储介质
分词
人工智能技术
处理器
声码器
计算机设备
系统为您推荐了相关专利信息
电子纸屏幕
电子价签
柔性电路板
柔性印刷电路板
控制电路
机载光电系统
数据处理方法
地面控制站
发送端
微光夜视