摘要
本申请公开了一种语音合成方法、装置、存储介质及电子设备,涉及人工智能技术领域。其中方法包括:获取待处理文本以及所述待处理文本对应的嵌入向量;将所述待处理文本和所述待处理文本对应的嵌入向量一同输入至预设文本编码器中进行编码,得到所述待处理文本对应的文本向量;根据所述待处理文本对应的文本向量,利用预设时长预测大模型预测所述待处理文本中每个字符发音的持续时长;基于所述待处理文本中每个字符发音的持续时长以及所述待处理文本对应的文本向量,进行语音合成,得到所述待处理文本对应的语音信息。本申请能够提高文本发音的时长预测精度,保证合成语音的自然度。
技术关键词
样本
发音
字符
文本编码器
语音
音频特征
解码器
多尺度
音色特征
音量调节系数
电子设备
上采样
人工智能技术
处理器
标识
注意力机制
序列
系统为您推荐了相关专利信息
像素
图像融合方法
线性回归算法
样本
数据处理工具
跨模态数据
模型训练方法
图像
样本
双曲正切函数
衰减预测方法
燃料电池电堆电压
参数
强化学习环境
特征值