摘要
本发明提供一种语音合成方法及装置,所述方法包括:基于编码器中的当前自注意力模块,对上一自注意力模块输出的上一文本特征进行关键信息提取,确定当前文本特征;基于解码器中与当前自注意力模块层级对应的当前交叉注意力模块,对上一交叉注意力模块输出的上一语音特征与当前文本特征进行特征对齐,得到当前语音特征;基于解码器中末个交叉注意力模块输出的语音特征,对待合成文本进行语音合成,得到合成语音。本发明减少了语音合成中语义信息和声学信息的耦合,提高了语义信息和声学信息对齐稳定性,减少了交叉注意力带来的对齐不稳定,进而提高了语音合成效果。
技术关键词
语音特征
注意力
解码器
文本
模块
层级
编码器
非暂态计算机可读存储介质
处理器
计算机程序产品
语义
存储器
电子设备
数据
参数
系统为您推荐了相关专利信息
地铁客流量预测方法
大语言模型
多头注意力机制
生成补丁
序列
智能调度系统
评分预测模型
发电设备
电网运行数据
储能设备
业务流程管理系统
业务管理方法
金融
渠道
XGBoost模型
回归预测方法
回归预测模型
多肽
长短期记忆网络
元启发式算法
融合知识图谱
实体关系抽取模型
三元组
大语言模型
答案