一种情感可控的联合编码VITS语音合成方法及相关装置

正文

推荐专利

申请号：CN202510905681

申请日期：2025-07-02

公开号：CN120412539B

公开日期：2025-09-12

类型：发明专利

摘要

本发明提供了一种情感可控的联合编码VITS语音合成方法及相关装置，涉及语音合成技术领域。通过对输入语音样本进行情感特征提取，并生成情感特征向量；构建情感类别相对排名函数集合生成相对属性向量；将情感特征向量与所述相对属性向量拼接得到融合情感特征表示；将文本特征向量与融合情感特征表示进行加权拼接生成联合特征向量；对所述联合特征向量进行联合编码；将联合编码后的特征转换为语音频谱，通过调整相对属性向量中各情感类别的权重比例，动态控制合成语音的情感表达，实现对合成语音情感的有效、便捷且灵活可控的技术效果。

技术关键词

融合情感特征情感类别文本特征向量生成语音编码器声学特征拼接模块样本解码器深度神经网络特征提取器生成特征波形编码模块输出特征计算机设备

一种情感可控的联合编码VITS语音合成方法及相关装置

站点导航

APP 下载