摘要
本申请实施例属于语音处理技术领域,涉及一种语音生成方法、装置、计算机设备及存储介质,该方法包括:接收用户终端发送的语音生成请求,其中,所述语音生成请求包括参考语音以及语音文本;将所述参考语音输入至语音表征器进行语音表征操作,得到语音表征数据;将所述语音文本输入至文本表征器进行文本表征操作,得到文本表征数据;将所述语音表征数据以及所述文本表征数据输入至自回归语言模型进行预测操作,得到语音标记数据;将所述语音标记数据输入至扩散变换器模型进行语音增强操作,得到增强语音数据;将所述增强语音数据输入至声学语音合成器进行语音合成操作,得到目标合成语音。本申请可以生成高质量、个性化的语音输出。
技术关键词
语音生成方法
语音合成器
计算机可读指令
文本
声学特征
语音特征
数据
计算机设备
信号分析
变换器
生成装置
标记
可读存储介质
模块
终端
注意力机制
处理器
关系
系统为您推荐了相关专利信息
配置需求信息
像素点
噪声强度
CRF模型
字符识别
分页机制
案例库
重试机制
文本实体识别
语义向量空间
标注规则
工程图自动标注方法
神经网络模型
后处理算法
图像
预训练语言模型
输出特征
嵌入特征
训练特征
文本