摘要
本发明涉及语音合成技术领域,具体公开了基于语义蒸馏的可控潜变量建模的语音合成方法及系统,其方法包括:通过语音编码模块将梅尔频谱转换为连续潜变量分布,利用重参数化采样生成连续潜变量,引入自监督模型进行语义蒸馏,通过边际余弦相似度和距离矩阵结构损失约束潜变量与语义特征对齐,文本编码器将音素序列映射为潜变量分布,结合单调对齐搜索实现文本与潜变量的时序对齐,解码器将潜变量重建为梅尔频谱,经声码器合成波形以及总损失函数联合优化重建、KL散度、蒸馏、文本对齐及对抗损失,通过连续潜变量建模避免离散化信息损失,强化语义一致性与文本对齐效率,提升合成语音的自然度、连贯性和实时性,适用于语音助手、虚拟主播等场景。
技术关键词
变量
语音编码
语义向量
蒸馏
频谱特征
文本编码器
对齐模块
门控循环单元
生成对抗网络架构
参数
教师
生成上下文感知
声码器
波形
输入解码器
序列
系统为您推荐了相关专利信息
角色扮演方法
语义向量
实体
自然语言
计算机终端设备
空天地一体化网络
利润
计算机程序产品
构建系统模型
资源分配模块