基于多模态风格嵌入的语音合成方法、装置、设备及介质

正文

推荐专利

申请号：CN202510221661

申请日期：2025-02-26

公开号：CN119993114A

公开日期：2025-05-13

类型：发明专利

摘要

本申请提供一种基于多模态风格嵌入的语音合成方法、装置、设备及介质，涉及计算机技术领域。本申请方法通过第一编码器对多模态特征进行特征提取和融合，生成语音嵌入数据，有助于捕捉和保留原始语音信号中的风格和情感特征。通过第二编码器对音素数据进行特征提取，生成文本特征数据，有助于理解文本内容并将其转化为可合成的语音信号。通过特征融合模型将语音嵌入数据和文本特征数据结合起来，生成风格化语音数据，在合成语音时同时考虑语音的自然度和文本的风格，从而在零样本语音合成中实现更丰富、更自然的风格多样性。

技术关键词

风格多模态特征预测持续时间文本数据生成语音说话人身份转换算法声学特征语音编码器音频计算机设备关系可读存储介质特征提取模块情感特征申请方法

基于多模态风格嵌入的语音合成方法、装置、设备及介质

站点导航

APP 下载