摘要
本公开提供了一种基于文本的语音合成方法、装置、设备及存储介质,涉及人工智能领域,尤其涉及文本转语音领域,可应用于智能客服、语音阅读助手、语音内容创作、语音教育培训等领域。具体实现方案为:获取目标文本和参考音频;其中,所述目标文本是待合成语音的文本,所述参考音频为预设音色的音频;对所述目标文本进行特征提取处理,得到所述目标文本的文本特征向量;其中,所述文本特征向量表征文本的语义特征和韵律特征;根据所述文本特征向量和所述参考音频,得到所述目标文本对应的目标音频;其中,所述目标音频的音色与所述参考音频的音色一致。本公开不需要对文本转音素的方法进行维护,通过提取语义特征和韵律特征,提高语音的合成精度。
技术关键词
文本特征向量
音频编码
韵律特征
语义特征
语音编码器
量化器
子模块
特征提取单元
文本编码器
预训练模型
特征提取模块
数据获取单元
处理器
智能客服
计算机程序产品
系统为您推荐了相关专利信息
书籍
面向图书馆
信息分析系统
感兴趣
特征提取单元
路面裂缝图像
裂缝检测方法
网络结构
路面裂缝检测
注意力
中频信号
侦察无人机
信号处理方法
因子
波形特征提取
智能化服务方法
原型
跨模态
智能化服务系统
矩阵