摘要
本申请提供一种基于多模态风格嵌入的语音合成方法、装置、设备及介质,涉及计算机技术领域。本申请方法通过第一编码器对多模态特征进行特征提取和融合,生成语音嵌入数据,有助于捕捉和保留原始语音信号中的风格和情感特征。通过第二编码器对音素数据进行特征提取,生成文本特征数据,有助于理解文本内容并将其转化为可合成的语音信号。通过特征融合模型将语音嵌入数据和文本特征数据结合起来,生成风格化语音数据,在合成语音时同时考虑语音的自然度和文本的风格,从而在零样本语音合成中实现更丰富、更自然的风格多样性。
技术关键词
风格
多模态特征
预测持续时间
文本
数据
生成语音
说话人身份
转换算法
声学特征
语音编码器
音频
计算机设备
关系
可读存储介质
特征提取模块
情感特征
申请方法