一种基于分段整流的快速文本引导音效生成方法和系统

AITNT
正文
推荐专利
一种基于分段整流的快速文本引导音效生成方法和系统
申请号:CN202510260365
申请日期:2025-03-06
公开号:CN119811365B
公开日期:2025-06-17
类型:发明专利
摘要
本发明公开了一种基于分段整流的快速文本引导音效生成方法和系统,属于音效生成领域。获取具有描述文本标注的音效数据,预训练一个扩散模型作为教师扩散模型,再采用蒸馏学习训练一个学生扩散模型,学生扩散模型的微分方程轨迹为分段直线轨迹,采用线性插值方式计算得到采样时间步对应的加噪梅尔频谱图特征;学生扩散模型以描述文本的文本特征为引导,对采样时间步对应的加噪梅尔频谱图特征预测噪声;在音效生成阶段,用户提供描述文本,初始化噪声,学生扩散模型逐段运行逆扩散去噪过程并生成最终音效。本发明通过向音效生成扩散模型引入分段整流技术,实现了快速的文本引导的音效生成,大幅提升了扩散模型低步数生成时生成的音效质量。
技术关键词
音效生成方法 文本 学生 教师 嵌入特征 时间段 分段 正弦编码 蒸馏 编码特征 波形 阶段 轨迹 训练集 模型预训练 整流技术 数据 随机噪声
系统为您推荐了相关专利信息
1
语音数据的重建方法、装置、计算机设备及存储介质
韵律模块 正弦激励信号 文本编码器 语音 噪声数据
2
运营信息推荐方法、装置及计算机设备
样本 文本 概念 信息推荐方法 预训练语言模型
3
一种用于语音指令输入解析的通用机器人处理模块
音频特征提取 机器人 分析单元 Viterbi算法 模块
4
路径得分优化方法、装置、设备及介质
CTC算法 序列 命令 标签 语音识别技术
5
一种消费大数据的动态分析方法及计算机系统
动态分析方法 消费服务系统 语义特征 语义注意力 动态语义分析
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号