摘要
本发明公开了一种基于音频处理模型的音频生成方法和装置,该方法包括:确定历史音频序列或历史音频序列和当前音频帧文本向量,对历史音频序列进行自回归处理,得到上下文向量序列;其中,历史音频序列由至少两个历史音频帧组成;音频处理模型基于上下文向量序列或上下文向量序列和当前音频帧文本向量,对待处理的随机带噪音频向量进行去噪处理,得到当前音频帧;将当前音频帧加入到历史音频序列末尾,并重复执行确定历史音频序列或历史音频序列和当前音频帧文本向量的步骤,直至完成对全部音频帧的处理。本发明可以基于音频处理模型对流式输入进行处理,实现流式音频生成,提高了音频生成的实时性,同时保证了音频的听感良好。
技术关键词
序列
音频生成方法
文本编码器
音乐
人工智能模型
样本
语音
注意力机制
噪声
生成装置
模块
通道
参数
系统为您推荐了相关专利信息
跨尺度特征融合
分割方法
通道注意力机制
序列特征
尺寸特征
交通流量预测方法
注意力机制
时序特征
邻居
传感器节点
AI大数据
智能管理方法
智能模型
数据预处理技术
数据处理流水线
电力通信网络故障
故障检测模型
电力监控系统
Sigmoid函数
关系