一种单阶段语音合成方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202411687489

申请日期：2024-11-22

公开号：CN119600986B

公开日期：2025-11-21

类型：发明专利

摘要

本发明涉及数据存储技术领域，公开了一种单阶段语音合成方法、装置、设备及存储介质，包括：通过单阶段TTS模型接收输入的待处理文本，并通过语义知识蒸馏算法对所述待处理文本进行语义增强处理，捕捉所述待处理文本中的深层语义特征；根据所述语义增强处理后的待处理文本进行音频生成，并在音频生成过程中，利用音频掩码建模算法随机掩盖部分音频信号，生成掩码音频信号；根据所述语义增强处理后的待处理文本和掩码音频信号预测未被掩盖的音频信号，生成符合所述深层语义特征且具有自然情感的音频信号。本发明采用单阶段TTS模型架构，将语义知识蒸馏算法和音频掩码建模算法相结合，简化生成流程，提升了推理速度，能够在实时场景中生成高质量音频。

技术关键词

音频语义特征文本建模算法语音信号阶段蒸馏预训练语言模型数据存储技术离散余弦变换可读存储介质语法结构处理器计算机设备存储器编码

系统为您推荐了相关专利信息

一种基于大语言模型的回复增强方法及系统

大语言模型文本生成用户模版策略

内容拦截及模型训练方法、装置及电子设备

多媒体文本样本风险元素

一种超声声波和相控阵音频系统算法

相控阵音频系统功率放大单元放大器模块超声波模块

基于人工智能的视频评估方法、装置、设备及介质

指标时序意图识别视频帧对象识别

基于多维特征标签的重叠用户确定方法、装置及程序产品

图像特征提取模型标签文本分类算法人脸特征提取网络平台

一种单阶段语音合成方法、装置、设备及存储介质

站点导航

APP 下载