基于VITS的特征融合语音合成方法及装置

正文

推荐专利

申请号：CN202510050312

申请日期：2025-01-13

公开号：CN120032624A

公开日期：2025-05-23

类型：发明专利

摘要

基于VITS的特征融合语音合成方法及装置，能够提高语音的表现力和自然性，生成更加自然、流畅且富有表现力的高质量语音，尤其在多语言、多情感表达和复杂语境的语音合成中表现尤为突出。方法包括：(1)根据输入的文本信息，生成与之相匹配的韵律特征；(2)建立基于Transformer的深度学习模型；(3)采用多模态特征融合方法，将韵律特征和文本特征进行综合处理；(4)综合特征向量被输入到基于变分自编码器的语音合成网络中进行处理，语音合成网络采用生成对抗网络和基于最大似然的训练方法进行训练；(5)采用随机时长预测器的神经网络模型，通过一个多层的归一化流结构进行输入数据的变换。

技术关键词

韵律特征多头注意力机制生成对抗网络深度学习模型神经网络模型文本编码器大规模文本数据编码机制 sigmoid函数生成语音多模态特征融合非线性传播算法高维特征向量

系统为您推荐了相关专利信息

一种陶瓷模组的缺陷检测方法、装置、设备及存储介质

训练样本图像模组缺陷检测方法神经网络模型训练学生

一种数据保护方法、装置、电子设备及介质

加密数据水印数据保护方法图标密钥

基于大数据的产品需求信息预测方法、装置、预测平台及介质

LSTM模型需求预测模型 GMM模型序列概率密度曲线

一种融合多任务与迁移学习的轻量级网络入侵检测方法

网络入侵检测方法融合多任务入侵检测模型深度学习模型二维图像数据

一种多源传感数据的时空特征融合建模方法

融合建模方法数据统计特征网格交互特征

基于VITS的特征融合语音合成方法及装置

站点导航

APP 下载