一种单阶段语音合成方法、装置、设备及存储介质

AITNT
正文
推荐专利
一种单阶段语音合成方法、装置、设备及存储介质
申请号:CN202411687489
申请日期:2024-11-22
公开号:CN119600986B
公开日期:2025-11-21
类型:发明专利
摘要
本发明涉及数据存储技术领域,公开了一种单阶段语音合成方法、装置、设备及存储介质,包括:通过单阶段TTS模型接收输入的待处理文本,并通过语义知识蒸馏算法对所述待处理文本进行语义增强处理,捕捉所述待处理文本中的深层语义特征;根据所述语义增强处理后的待处理文本进行音频生成,并在音频生成过程中,利用音频掩码建模算法随机掩盖部分音频信号,生成掩码音频信号;根据所述语义增强处理后的待处理文本和掩码音频信号预测未被掩盖的音频信号,生成符合所述深层语义特征且具有自然情感的音频信号。本发明采用单阶段TTS模型架构,将语义知识蒸馏算法和音频掩码建模算法相结合,简化生成流程,提升了推理速度,能够在实时场景中生成高质量音频。
技术关键词
音频 语义特征 文本 建模算法 语音 信号 阶段 蒸馏 预训练语言模型 数据存储技术 离散余弦变换 可读存储介质 语法结构 处理器 计算机设备 存储器 编码
系统为您推荐了相关专利信息
1
一种基于大语言模型的回复增强方法及系统
大语言模型 文本 生成用户 模版 策略
2
内容拦截及模型训练方法、装置及电子设备
多媒体 文本 样本 风险 元素
3
一种超声声波和相控阵音频系统算法
相控阵 音频系统 功率放大单元 放大器模块 超声波模块
4
基于人工智能的视频评估方法、装置、设备及介质
指标 时序 意图识别 视频帧 对象识别
5
基于多维特征标签的重叠用户确定方法、装置及程序产品
图像特征提取模型 标签 文本分类算法 人脸特征提取 网络平台
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号