摘要
本发明公开了一种文本到语音生成方法,属于语音生成技术领域,能够解决现有文本到语音系统语音合成效率低、且依赖对齐信息的问题。所述方法包括:S1、获取参考语音的自监督特征,并对自监督特征进行离散化处理,得到参考语义标记序列;S2、根据文本标记序列和参考语义标记序列,得到目标语义标记序列;S3、对目标语义标记序列进行预测,得到多层声学标记序列,并根据多层声学标记序列生成目标语音。本发明用于生成目标语音。
技术关键词
语义
语音生成方法
标记
序列
编解码器
文本
语音生成技术
神经网络模型
语音系统
编码器
模块
系统为您推荐了相关专利信息
效益计算方法
配电系统
功率稳定
场景
多时间尺度
智能语音识别方法
工业互联网
生成特征向量
麦克风阵列
多模态
数据采集子系统
时域特征提取
频域特征提取
分析子系统
语义分割算法