一种基于音频处理模型的音频生成方法和装置

正文

推荐专利

申请号：CN202511374655

申请日期：2025-09-25

公开号：CN120877703B

公开日期：2025-12-05

类型：发明专利

摘要

本发明公开了一种基于音频处理模型的音频生成方法和装置，该方法包括：确定历史音频序列或历史音频序列和当前音频帧文本向量，对历史音频序列进行自回归处理，得到上下文向量序列；其中，历史音频序列由至少两个历史音频帧组成；音频处理模型基于上下文向量序列或上下文向量序列和当前音频帧文本向量，对待处理的随机带噪音频向量进行去噪处理，得到当前音频帧；将当前音频帧加入到历史音频序列末尾，并重复执行确定历史音频序列或历史音频序列和当前音频帧文本向量的步骤，直至完成对全部音频帧的处理。本发明可以基于音频处理模型对流式输入进行处理，实现流式音频生成，提高了音频生成的实时性，同时保证了音频的听感良好。

技术关键词

序列音频生成方法文本编码器音乐人工智能模型样本语音注意力机制噪声生成装置模块通道参数

系统为您推荐了相关专利信息

一种面向设施环境复杂光照下的番茄果实分割方法

跨尺度特征融合分割方法通道注意力机制序列特征尺寸特征

OCT病变模拟影像生成方法、装置、设备及存储介质

影像生成方法层级三维模型生理图像

一种基于Transformer和图神经网络的交通流量预测方法

交通流量预测方法注意力机制时序特征邻居传感器节点

一种AI大数据智能管理方法及系统

AI大数据智能管理方法智能模型数据预处理技术数据处理流水线

基于注意力机制的电力通信网络故障检测方法及系统

电力通信网络故障故障检测模型电力监控系统 Sigmoid函数关系

一种基于音频处理模型的音频生成方法和装置

站点导航

APP 下载