基于VITS的特征融合语音合成方法及装置

AITNT
正文
推荐专利
基于VITS的特征融合语音合成方法及装置
申请号:CN202510050312
申请日期:2025-01-13
公开号:CN120032624A
公开日期:2025-05-23
类型:发明专利
摘要
基于VITS的特征融合语音合成方法及装置,能够提高语音的表现力和自然性,生成更加自然、流畅且富有表现力的高质量语音,尤其在多语言、多情感表达和复杂语境的语音合成中表现尤为突出。方法包括:(1)根据输入的文本信息,生成与之相匹配的韵律特征;(2)建立基于Transformer的深度学习模型;(3)采用多模态特征融合方法,将韵律特征和文本特征进行综合处理;(4)综合特征向量被输入到基于变分自编码器的语音合成网络中进行处理,语音合成网络采用生成对抗网络和基于最大似然的训练方法进行训练;(5)采用随机时长预测器的神经网络模型,通过一个多层的归一化流结构进行输入数据的变换。
技术关键词
韵律特征 多头注意力机制 生成对抗网络 深度学习模型 神经网络模型 文本编码器 大规模文本数据 编码机制 sigmoid函数 生成语音 多模态特征融合 非线性 传播算法 高维特征向量
系统为您推荐了相关专利信息
1
一种陶瓷模组的缺陷检测方法、装置、设备及存储介质
训练样本图像 模组 缺陷检测方法 神经网络模型训练 学生
2
一种数据保护方法、装置、电子设备及介质
加密数据 水印 数据保护方法 图标 密钥
3
基于大数据的产品需求信息预测方法、装置、预测平台及介质
LSTM模型 需求预测模型 GMM模型 序列 概率密度曲线
4
一种融合多任务与迁移学习的轻量级网络入侵检测方法
网络入侵检测方法 融合多任务 入侵检测模型 深度学习模型 二维图像数据
5
一种多源传感数据的时空特征融合建模方法
融合建模方法 数据 统计特征 网格 交互特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号