语音合成方法、装置、设备及介质

正文

推荐专利

语音合成方法、装置、设备及介质

申请号：CN202411654472

申请日期：2024-11-19

公开号：CN119380688A

公开日期：2025-01-28

类型：发明专利

摘要

本发明涉及人工智能技术领域，公开了一种语音合成方法、装置、设备及介质，包括：获取待合成文本和参考音频；采用滑动窗口算法将待合成文本划分为多个文本段；基于参考音频和预训练的语音合成模型，生成每个文本段对应的音频波形；对每个文本段对应的音频波形进行语音合成，得到目标语音。通过上述方式，采用滑动窗口算法对输入文本进行分割，形成若干段更小、更易管理的文本段，将若干个文本段和参数音频输入语音合成模型，使得语音合成模型基于较短的文本段逐句生成音频，使得模型能够更加专注于每个片段的精确语音和语调细节，确保音频输出的准确性和自然流畅性，解决了由于文本长度超出典型长度参数引起的退化问题，提高语音生成的稳定性。

技术关键词

滑动窗口算法字符拼音波形文本特征向量语音合成器音频编码器文本编码器声学特征数据可读存储介质分词人工智能技术处理器声码器计算机设备

系统为您推荐了相关专利信息

电子价签及其制备方法

电子纸屏幕电子价签柔性电路板柔性印刷电路板控制电路

一种基于AI的变电工程评审资料信息提取方法

信息提取方法关键词表格字符资料

一种机载光电系统无线传输的数据处理方法

机载光电系统数据处理方法地面控制站发送端微光夜视

一种基于Tokenizer的单向数据传输方法

单向数据传输方法全局字典模块索引序列

一种智能问答方法、装置、设备及存储介质

文本特征向量样本智能问答方法场景训练集

语音合成方法、装置、设备及介质

站点导航

APP 下载