摘要
本发明涉及数据存储技术领域,公开了一种单阶段语音合成方法、装置、设备及存储介质,包括:通过单阶段TTS模型接收输入的待处理文本,并通过语义知识蒸馏算法对所述待处理文本进行语义增强处理,捕捉所述待处理文本中的深层语义特征;根据所述语义增强处理后的待处理文本进行音频生成,并在音频生成过程中,利用音频掩码建模算法随机掩盖部分音频信号,生成掩码音频信号;根据所述语义增强处理后的待处理文本和掩码音频信号预测未被掩盖的音频信号,生成符合所述深层语义特征且具有自然情感的音频信号。本发明采用单阶段TTS模型架构,将语义知识蒸馏算法和音频掩码建模算法相结合,简化生成流程,提升了推理速度,能够在实时场景中生成高质量音频。
技术关键词
音频
语义特征
文本
建模算法
语音
信号
阶段
蒸馏
预训练语言模型
数据存储技术
离散余弦变换
可读存储介质
语法结构
处理器
计算机设备
存储器
编码
系统为您推荐了相关专利信息
相控阵
音频系统
功率放大单元
放大器模块
超声波模块
图像特征提取模型
标签
文本分类算法
人脸特征提取
网络平台