摘要
本申请提供了一种语音合成方法、装置、电子设备、计算机程序产品及计算机可读存储介质;方法包括:确定第一文本的音素序列以及第二文本,第二文本用于描述第一语音的属性;对所述音素序列进行特征提取,得到音素特征,并对所述第二文本进行特征提取,得到第一属性特征;基于所述音素特征,对所述第一属性特征进行注意力调整,得到第二属性特征;对所述第二属性特征和所述音素特征进行融合处理,得到融合特征;基于所述融合特征进行频谱预测,得到预测频谱,并基于所述预测频谱进行语音合成,得到所述第一文本对应的第一语音。通过本申请,能够实现对第一语音属性的精细化控制,提高了语音合成的准确度。
技术关键词
融合特征
计算机可执行指令
文本
语音
语义特征
计算机程序产品
注意力机制
查询特征
序列
编码特征
可读存储介质
电子设备
特征提取模块
键特征
处理器