基于语义蒸馏的可控潜变量建模的语音合成方法及系统

AITNT
正文
推荐专利
基于语义蒸馏的可控潜变量建模的语音合成方法及系统
申请号:CN202510720313
申请日期:2025-05-30
公开号:CN120673740A
公开日期:2025-09-19
类型:发明专利
摘要
本发明涉及语音合成技术领域,具体公开了基于语义蒸馏的可控潜变量建模的语音合成方法及系统,其方法包括:通过语音编码模块将梅尔频谱转换为连续潜变量分布,利用重参数化采样生成连续潜变量,引入自监督模型进行语义蒸馏,通过边际余弦相似度和距离矩阵结构损失约束潜变量与语义特征对齐,文本编码器将音素序列映射为潜变量分布,结合单调对齐搜索实现文本与潜变量的时序对齐,解码器将潜变量重建为梅尔频谱,经声码器合成波形以及总损失函数联合优化重建、KL散度、蒸馏、文本对齐及对抗损失,通过连续潜变量建模避免离散化信息损失,强化语义一致性与文本对齐效率,提升合成语音的自然度、连贯性和实时性,适用于语音助手、虚拟主播等场景。
技术关键词
变量 语音编码 语义向量 蒸馏 频谱特征 文本编码器 对齐模块 门控循环单元 生成对抗网络架构 参数 教师 生成上下文感知 声码器 波形 输入解码器 序列
系统为您推荐了相关专利信息
1
一种基于情感检索与角色一致性控制的影视角色扮演方法
角色扮演方法 语义向量 实体 自然语言 计算机终端设备
2
跨模型裁决的大语言模型偏见消减方法及系统
消减方法 度量 消减系统 机制 参数
3
非平稳数据流下的风电机组发电功率自适应预测方法
气象 风电机组 序列 样本 数值天气预报
4
电机转子冲片及其仿真验证方法
电机转子冲片 磁钢 仿真验证方法 空腔 V型
5
空天地一体化网络的服务功能链分配方法、装置及设备
空天地一体化网络 利润 计算机程序产品 构建系统模型 资源分配模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号