摘要
本申请提供了一种语音合成的方法、装置、电子设备及计算机可读存储介质,其中,方法包括:确定待生成语音的文本对应的音素序列,其中,所述音素序列中标注有待加入的非语言事件所在的位置;根据所述音素序列,对各音素和所述非语言事件分别进行所占帧数的预测和韵律预测,得到帧级别的、加入了韵律信息的第一音素特征数据;确定待生成语音中待加入的、帧级别的非语言特征数据;根据所述非语言特征数据,将所述第一音素特征数据处理为加入了所述非语言事件的语音信号。因此,本申请实施例提供的语音生成中的数据处理方法能够生成包含多样化、真实自然的非语言事件的语音。
技术关键词
非语言特征
韵律预测模型
生成语音
样本
序列
方差信息
音频
数据处理方法
数据处理程序
特征提取模型
文本
电子设备
可读存储介质
数据处理装置
粗略
处理器
信号
系统为您推荐了相关专利信息
动态分割方法
多元时间序列数据
高性能
分割算法
网络
基因
机器学习方法
生物信息方法
随机森林
支持向量机
多模态特征融合
协同注意力
序列特征
融合特征
交叉注意力机制
柱上断路器
智能控制方法
卡尔曼滤波融合
电流
指数
模态特征
残差注意力机制
多模态
嵌入特征
情感识别方法