摘要
本发明公开了一种基于分段整流的快速文本引导音效生成方法和系统,属于音效生成领域。获取具有描述文本标注的音效数据,预训练一个扩散模型作为教师扩散模型,再采用蒸馏学习训练一个学生扩散模型,学生扩散模型的微分方程轨迹为分段直线轨迹,采用线性插值方式计算得到采样时间步对应的加噪梅尔频谱图特征;学生扩散模型以描述文本的文本特征为引导,对采样时间步对应的加噪梅尔频谱图特征预测噪声;在音效生成阶段,用户提供描述文本,初始化噪声,学生扩散模型逐段运行逆扩散去噪过程并生成最终音效。本发明通过向音效生成扩散模型引入分段整流技术,实现了快速的文本引导的音效生成,大幅提升了扩散模型低步数生成时生成的音效质量。
技术关键词
音效生成方法
文本
学生
教师
嵌入特征
时间段
分段
正弦编码
蒸馏
编码特征
波形
阶段
轨迹
训练集
模型预训练
整流技术
数据
随机噪声
系统为您推荐了相关专利信息
韵律模块
正弦激励信号
文本编码器
语音
噪声数据
音频特征提取
机器人
分析单元
Viterbi算法
模块
动态分析方法
消费服务系统
语义特征
语义注意力
动态语义分析