摘要
本申请属于人工智能技术领域,涉及一种文本引导的语音合成方法,包括对语音数据集进行风格标签标注和场景噪声注入,得到参考语音集;将参考语音集和文本数据集输入声学模型;通过风格编码器对风格标签进行编码,得到风格编码特征;通过参考编码器对参考语音进行编码,得到参考语音编码特征;通过文本编码器对文本进行编码,得到文本编码特征;将全部编码特征输入声学结构,获得语音声学特征;将语音声学特征输入声码器合成波形,得到预测合成语音进行训练,得到语音合成模型。本申请还提供一种文本引导的语音合成装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,待转换文本可存储于区块链中。本申请提高语音合成的效率与质量。
技术关键词
编码特征
语音声学特征
风格
语音编码
文本编码器
声学结构
标签
计算机可读指令
数据
转换文本
流解码器
信噪比
声码器
计算机设备
情感识别模型
系统为您推荐了相关专利信息
视频异常检测方法
词汇数据库
非暂态计算机可读存储介质
动态位置编码
分支
图像语义分割方法
多模态特征融合
文本编码器
图像编码器
报告
文字内容信息
海报
图片生成方法
噪声特征
生成文字