摘要
本申请公开了一种语音合成方法,属于语音处理技术领域。该方法包括:获取音频数据和文本数据并进行预处理,得到token字典;将token字典输入到文本‑语音模型中,得到文本‑语音令牌集;将文本‑语音令牌集输入到因果流匹配模型中,得到梅尔频谱图;将梅尔频谱图输入到声码器模型中,输出目标语音。该方法提升了语音合成的速度和质量。
技术关键词
语音
令牌
语义特征
字典
音频
数据
非暂态计算机可读存储介质
文本编码器
韵律特征
处理器
融合算法
注意力机制
输出模块
序列
波形
上采样
存储器
电子设备
系统为您推荐了相关专利信息
供应链优化方法
管理策略
自然语言
物料运输效率
矩阵
线路巡检装置
光纤网络
接线端口
信号发射器
调频模块
语音
智能管理方法
负载均衡器
文本
智能管理系统
图像生成模型
多模态
多媒体
预训练语言模型
文本