语音合成方法、扩散模型的训练方法、装置及设备

AITNT
正文
推荐专利
语音合成方法、扩散模型的训练方法、装置及设备
申请号:CN202511066167
申请日期:2025-07-30
公开号:CN120998174A
公开日期:2025-11-21
类型:发明专利
摘要
本申请涉及语音合成技术领域,用于人工智能场景、金融业务场景、医疗健康业务场景,提供一种语音合成方法、扩散模型的训练方法、装置及设备,包括:获取文本信息;基于扩散模型的文本编码子模型,对文本信息进行编码处理,得到向量序列;基于声学特征提取子模型,对向量序列进行声学特征提取处理,得到第一梅尔谱;基于上下文感知子模型,根据向量序列,对第一梅尔谱进行文本‑语音对齐处理,得到第二梅尔谱;基于高频补偿扩散子模型,对第二梅尔谱进行残差学习及多尺度声学特征提取处理,得到目标梅尔谱;基于扩散子模型,根据目标梅尔谱,确定目标语音,以提升语音合成效果,进而推进金融业务、医疗健康业务的发展。
技术关键词
文本 高频补偿 噪声预测 序列 残差学习 编码 语音标签 训练样本集 医疗健康 语义向量 语音特征 网络 多尺度 计算机设备 可读存储介质 存储计算机程序 特征提取模块
系统为您推荐了相关专利信息
1
一种基于用户特征参数的供热管理方法、设备及介质
供热管理方法 运动 采集设备 轨迹点数据 非易失性计算机存储介质
2
一种时钟信号的频率确定方法和芯片
线性反馈移位寄存器 累加计数器 数值 时钟 密码芯片
3
一种情绪识别推理建模方法、装置、存储介质和程序产品
融合特征 建模方法 脉冲 编码器 注意力机制
4
一种建筑数据的处理方法、装置、设备及介质
问答模型 建筑 对象 策略 文本
5
一种基于FMCW雷达的高精确度振动位移提取方法
FMCW雷达 估计方法 信号 序列 FFT算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号