文本引导的语音合成方法、装置、计算机设备及存储介质

正文

推荐专利

申请号：CN202510192011

申请日期：2025-02-20

公开号：CN120015011B

公开日期：2025-12-02

类型：发明专利

摘要

本申请属于人工智能技术领域，涉及一种文本引导的语音合成方法，包括对语音数据集进行风格标签标注和场景噪声注入，得到参考语音集；将参考语音集和文本数据集输入声学模型；通过风格编码器对风格标签进行编码，得到风格编码特征；通过参考编码器对参考语音进行编码，得到参考语音编码特征；通过文本编码器对文本进行编码，得到文本编码特征；将全部编码特征输入声学结构，获得语音声学特征；将语音声学特征输入声码器合成波形，得到预测合成语音进行训练，得到语音合成模型。本申请还提供一种文本引导的语音合成装置、计算机设备及存储介质。此外，本申请还涉及区块链技术，待转换文本可存储于区块链中。本申请提高语音合成的效率与质量。

技术关键词

编码特征语音声学特征风格语音编码文本编码器声学结构标签计算机可读指令数据转换文本流解码器信噪比声码器计算机设备情感识别模型

系统为您推荐了相关专利信息

基于提示学习的弱监督视频异常检测方法及系统

视频异常检测方法词汇数据库非暂态计算机可读存储介质动态位置编码分支

基于多模态特征融合及边界增强的病理图像语义分割方法

图像语义分割方法多模态特征融合文本编码器图像编码器报告

一种基于解耦提示表示的目标动力学参数自主辨识方法

辨识方法柔性结构图像参数像素

基于人工智能的海报图片生成方法、装置、设备及介质

文字内容信息海报图片生成方法噪声特征生成文字

一种基于文生图大模型的视错觉隐藏图像创作方法

生成轨迹轨迹特征创作方法文本视错觉

文本引导的语音合成方法、装置、计算机设备及存储介质

站点导航

APP 下载