摘要
本发明提供了一种情感可控的联合编码VITS语音合成方法及相关装置,涉及语音合成技术领域。通过对输入语音样本进行情感特征提取,并生成情感特征向量;构建情感类别相对排名函数集合生成相对属性向量;将情感特征向量与所述相对属性向量拼接得到融合情感特征表示;将文本特征向量与融合情感特征表示进行加权拼接生成联合特征向量;对所述联合特征向量进行联合编码;将联合编码后的特征转换为语音频谱,通过调整相对属性向量中各情感类别的权重比例,动态控制合成语音的情感表达,实现对合成语音情感的有效、便捷且灵活可控的技术效果。
技术关键词
融合情感特征
情感类别
文本特征向量
生成语音
编码器
声学特征
拼接模块
样本
解码器
深度神经网络
特征提取器
生成特征
波形
编码模块
输出特征
计算机设备