一种基于提示词的语音合成系统、训练方法及推理方法

正文

推荐专利

申请号：CN202410952662

申请日期：2024-07-16

公开号：CN118762685A

公开日期：2024-10-11

类型：发明专利

摘要

本发明涉及语音合成技术领域，公开了一种基于提示词的语音合成系统、训练方法及推理方法，该系统包括全局样式获取模块和语音合成模块；全局样式获取模块包括源风格提示模块和目标风格提示模块，源风格提示模块用于对输入的音频的直谱图进行风格提取，得到源说话人风格向量，目标风格提示模块用于根据输入的提示词进行特征抽取，得到目标说话人风格向量；语音合成模块用于根据输入的音素和目标说话人风格向量进行语音合成生成目标音频波形或者进行语音克隆生成目标音频波形。本发明可以将风格信息融入到语音合成模块中，不需要指定说话者唯一标识符，只需根据文本描述，就可生成具有提示风格的语音，并且能实现语音克隆。

技术关键词

风格系统训练方法全局样式多任务分类推理方法解码音频编码模块后验概率注意力文本生成语音波形可读存储介质指令计算机程序产品

系统为您推荐了相关专利信息

图像生成方法、装置、设备和存储介质

图像生成模型图像生成方法注意力文本解码器

一种具备容错加固能力的星载计算机、在轨推理系统

智能加速卡图像星载计算机切片推理系统

一种基于AI的服装商品展示方法及系统

模特商品展示方法服装三维模型图片

一种外呼系统的对话智能管理方法

智能管理方法语调模型外呼系统客户音色特征

基于热流密度测量的电站锅炉散热热损失评估方法及系统

模糊隶属度函数节点电站锅炉损失评估方法张量分解方法

一种基于提示词的语音合成系统、训练方法及推理方法

站点导航

APP 下载