基于人工智能的语音合成方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510623661

申请日期：2025-05-14

公开号：CN120472880A

公开日期：2025-08-12

类型：发明专利

摘要

本发明公开了一种基于人工智能的语音合成方法、装置、设备及存储介质，方法包括：获取参考梅尔频谱和目标文本；将参考梅尔频谱输入至变分自编码器，以获取变分自编码器输出的说话人潜在表示和口音潜在表示；将目标文本输入至预先训练好的文本编码器，以获取预先训练好的文本编码器输出的音素嵌入表示；将说话人潜在表示和口音潜在表示输入至目标矢量量化器，以获取目标矢量量化器输出的说话人嵌入表示和口音嵌入表示；根据音素嵌入表示、说话人嵌入表示和口音嵌入表示，生成目标合成梅尔频谱；将目标合成梅尔频谱转换为目标语音。本申请可应用于金融科技、医疗健康养老等业务场景中的智能语音客服中，以提高合成语音的灵活性和个性化程度。

技术关键词

矢量量化器文本编码器输入模块智能语音客服线性可读存储介质适配器医疗健康解码器处理器传播算法计算机设备存储器矩阵

基于人工智能的语音合成方法、装置、设备及存储介质

站点导航

APP 下载