语音合成方法、扩散模型的训练方法、装置及设备

正文

推荐专利

申请号：CN202511066167

申请日期：2025-07-30

公开号：CN120998174A

公开日期：2025-11-21

类型：发明专利

摘要

本申请涉及语音合成技术领域，用于人工智能场景、金融业务场景、医疗健康业务场景，提供一种语音合成方法、扩散模型的训练方法、装置及设备，包括：获取文本信息；基于扩散模型的文本编码子模型，对文本信息进行编码处理，得到向量序列；基于声学特征提取子模型，对向量序列进行声学特征提取处理，得到第一梅尔谱；基于上下文感知子模型，根据向量序列，对第一梅尔谱进行文本‑语音对齐处理，得到第二梅尔谱；基于高频补偿扩散子模型，对第二梅尔谱进行残差学习及多尺度声学特征提取处理，得到目标梅尔谱；基于扩散子模型，根据目标梅尔谱，确定目标语音，以提升语音合成效果，进而推进金融业务、医疗健康业务的发展。

技术关键词

文本高频补偿噪声预测序列残差学习编码语音标签训练样本集医疗健康语义向量语音特征网络多尺度计算机设备可读存储介质存储计算机程序特征提取模块

系统为您推荐了相关专利信息

一种基于用户特征参数的供热管理方法、设备及介质

供热管理方法运动采集设备轨迹点数据非易失性计算机存储介质

一种时钟信号的频率确定方法和芯片

线性反馈移位寄存器累加计数器数值时钟密码芯片

一种情绪识别推理建模方法、装置、存储介质和程序产品

融合特征建模方法脉冲编码器注意力机制

一种建筑数据的处理方法、装置、设备及介质

问答模型建筑对象策略文本

一种基于FMCW雷达的高精确度振动位移提取方法

FMCW雷达估计方法信号序列 FFT算法

语音合成方法、扩散模型的训练方法、装置及设备

站点导航

APP 下载