一种基于分段整流的快速文本引导音效生成方法和系统

正文

推荐专利

申请号：CN202510260365

申请日期：2025-03-06

公开号：CN119811365B

公开日期：2025-06-17

类型：发明专利

摘要

本发明公开了一种基于分段整流的快速文本引导音效生成方法和系统，属于音效生成领域。获取具有描述文本标注的音效数据，预训练一个扩散模型作为教师扩散模型，再采用蒸馏学习训练一个学生扩散模型，学生扩散模型的微分方程轨迹为分段直线轨迹，采用线性插值方式计算得到采样时间步对应的加噪梅尔频谱图特征；学生扩散模型以描述文本的文本特征为引导，对采样时间步对应的加噪梅尔频谱图特征预测噪声；在音效生成阶段，用户提供描述文本，初始化噪声，学生扩散模型逐段运行逆扩散去噪过程并生成最终音效。本发明通过向音效生成扩散模型引入分段整流技术，实现了快速的文本引导的音效生成，大幅提升了扩散模型低步数生成时生成的音效质量。

技术关键词

音效生成方法文本学生教师嵌入特征时间段分段正弦编码蒸馏编码特征波形阶段轨迹训练集模型预训练整流技术数据随机噪声

系统为您推荐了相关专利信息

语音数据的重建方法、装置、计算机设备及存储介质

韵律模块正弦激励信号文本编码器语音噪声数据

运营信息推荐方法、装置及计算机设备

样本文本概念信息推荐方法预训练语言模型

一种用于语音指令输入解析的通用机器人处理模块

音频特征提取机器人分析单元 Viterbi算法模块

路径得分优化方法、装置、设备及介质

CTC算法序列命令标签语音识别技术

一种消费大数据的动态分析方法及计算机系统

动态分析方法消费服务系统语义特征语义注意力动态语义分析

一种基于分段整流的快速文本引导音效生成方法和系统

站点导航

APP 下载