一种基于音频处理模型的音频生成方法和装置

AITNT
正文
推荐专利
一种基于音频处理模型的音频生成方法和装置
申请号:CN202511374655
申请日期:2025-09-25
公开号:CN120877703B
公开日期:2025-12-05
类型:发明专利
摘要
本发明公开了一种基于音频处理模型的音频生成方法和装置,该方法包括:确定历史音频序列或历史音频序列和当前音频帧文本向量,对历史音频序列进行自回归处理,得到上下文向量序列;其中,历史音频序列由至少两个历史音频帧组成;音频处理模型基于上下文向量序列或上下文向量序列和当前音频帧文本向量,对待处理的随机带噪音频向量进行去噪处理,得到当前音频帧;将当前音频帧加入到历史音频序列末尾,并重复执行确定历史音频序列或历史音频序列和当前音频帧文本向量的步骤,直至完成对全部音频帧的处理。本发明可以基于音频处理模型对流式输入进行处理,实现流式音频生成,提高了音频生成的实时性,同时保证了音频的听感良好。
技术关键词
序列 音频生成方法 文本编码器 音乐 人工智能模型 样本 语音 注意力机制 噪声 生成装置 模块 通道 参数
系统为您推荐了相关专利信息
1
一种面向设施环境复杂光照下的番茄果实分割方法
跨尺度特征融合 分割方法 通道注意力机制 序列特征 尺寸特征
2
OCT病变模拟影像生成方法、装置、设备及存储介质
影像生成方法 层级 三维模型 生理 图像
3
一种基于Transformer和图神经网络的交通流量预测方法
交通流量预测方法 注意力机制 时序特征 邻居 传感器节点
4
一种AI大数据智能管理方法及系统
AI大数据 智能管理方法 智能模型 数据预处理技术 数据处理流水线
5
基于注意力机制的电力通信网络故障检测方法及系统
电力通信网络故障 故障检测模型 电力监控系统 Sigmoid函数 关系
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号