摘要
本申请涉及语音合成技术领域,用于人工智能场景、金融业务场景、医疗健康业务场景,提供一种语音合成方法、扩散模型的训练方法、装置及设备,包括:获取文本信息;基于扩散模型的文本编码子模型,对文本信息进行编码处理,得到向量序列;基于声学特征提取子模型,对向量序列进行声学特征提取处理,得到第一梅尔谱;基于上下文感知子模型,根据向量序列,对第一梅尔谱进行文本‑语音对齐处理,得到第二梅尔谱;基于高频补偿扩散子模型,对第二梅尔谱进行残差学习及多尺度声学特征提取处理,得到目标梅尔谱;基于扩散子模型,根据目标梅尔谱,确定目标语音,以提升语音合成效果,进而推进金融业务、医疗健康业务的发展。
技术关键词
文本
高频补偿
噪声预测
序列
残差学习
编码
语音标签
训练样本集
医疗健康
语义向量
语音特征
网络
多尺度
计算机设备
可读存储介质
存储计算机程序
特征提取模块
系统为您推荐了相关专利信息
供热管理方法
运动
采集设备
轨迹点数据
非易失性计算机存储介质
线性反馈移位寄存器
累加计数器
数值
时钟
密码芯片