基于语义蒸馏的可控潜变量建模的语音合成方法及系统

正文

推荐专利

申请号：CN202510720313

申请日期：2025-05-30

公开号：CN120673740A

公开日期：2025-09-19

类型：发明专利

摘要

本发明涉及语音合成技术领域，具体公开了基于语义蒸馏的可控潜变量建模的语音合成方法及系统，其方法包括：通过语音编码模块将梅尔频谱转换为连续潜变量分布，利用重参数化采样生成连续潜变量，引入自监督模型进行语义蒸馏，通过边际余弦相似度和距离矩阵结构损失约束潜变量与语义特征对齐，文本编码器将音素序列映射为潜变量分布，结合单调对齐搜索实现文本与潜变量的时序对齐，解码器将潜变量重建为梅尔频谱，经声码器合成波形以及总损失函数联合优化重建、KL散度、蒸馏、文本对齐及对抗损失，通过连续潜变量建模避免离散化信息损失，强化语义一致性与文本对齐效率，提升合成语音的自然度、连贯性和实时性，适用于语音助手、虚拟主播等场景。

技术关键词

变量语音编码语义向量蒸馏频谱特征文本编码器对齐模块门控循环单元生成对抗网络架构参数教师生成上下文感知声码器波形输入解码器序列

系统为您推荐了相关专利信息

一种基于情感检索与角色一致性控制的影视角色扮演方法

角色扮演方法语义向量实体自然语言计算机终端设备

跨模型裁决的大语言模型偏见消减方法及系统

消减方法度量消减系统机制参数

非平稳数据流下的风电机组发电功率自适应预测方法

气象风电机组序列样本数值天气预报

电机转子冲片及其仿真验证方法

电机转子冲片磁钢仿真验证方法空腔 V型

空天地一体化网络的服务功能链分配方法、装置及设备

空天地一体化网络利润计算机程序产品构建系统模型资源分配模块

基于语义蒸馏的可控潜变量建模的语音合成方法及系统

站点导航

APP 下载