摘要
本申请提供了一种基于音色特征的语音生成方法及语音生成装置,所述语音生成方法包括:获取目标解析模型,将描述文本输入所述目标解析模型中,得到所述描述文本对应的目标声音特征向量;其中,所述描述文本包括目标音色文本描述;将所述目标声音特征向量输入目标融合模型中,生成目标音色向量;将所述目标音色向量以及待转换文本输入语音生成模型中,以得到符合所述描述文本的目标语音。通过所述方法及装置,生成符合用户所要求的音色特征的目标语音,提高了在规定音色下语音生成的准确性,满足用户对多样化音色、高精度情感表达的语音生成需求。
技术关键词
语音生成方法
语音生成模型
转换文本
音色特征
生成装置
编码向量
样本
解码器
声学特征
因子
编码器
模块