摘要
本发明涉及人工智能技术领域,公开了一种语音合成方法、装置、设备及介质,包括:获取待合成文本和参考音频;采用滑动窗口算法将待合成文本划分为多个文本段;基于参考音频和预训练的语音合成模型,生成每个文本段对应的音频波形;对每个文本段对应的音频波形进行语音合成,得到目标语音。通过上述方式,采用滑动窗口算法对输入文本进行分割,形成若干段更小、更易管理的文本段,将若干个文本段和参数音频输入语音合成模型,使得语音合成模型基于较短的文本段逐句生成音频,使得模型能够更加专注于每个片段的精确语音和语调细节,确保音频输出的准确性和自然流畅性,解决了由于文本长度超出典型长度参数引起的退化问题,提高语音生成的稳定性。
技术关键词
滑动窗口算法
字符
拼音
波形
文本特征向量
语音合成器
音频编码器
文本编码器
声学特征
数据
可读存储介质
分词
人工智能技术
处理器
声码器
计算机设备
系统为您推荐了相关专利信息
数据共享管理方法
序列
生成动态密钥
数据完整性验证
二级结构预测
仿真方法
海浪谱模型
GNSS系统
多普勒
仿真模型
加油站监测系统
场景分类
标识符
管理方法
终端设备