一种音频生成方法、装置、设备及存储介质

正文

推荐专利

一种音频生成方法、装置、设备及存储介质

申请号：CN202411078762

申请日期：2024-08-07

公开号：CN118887940A

公开日期：2024-11-01

类型：发明专利

摘要

本申请提供了一种音频生成方法、装置、设备及存储介质，该音频生成方法包括：将目标文本描述信息输入预先训练好的大语言模型中，得到大语言模型输出的与目标文本描述信息匹配的目标离散音频特征；将目标离散音频特征输入预先训练好的潜在扩散模型中，得到潜在扩散模型输出的与目标离散音频特征匹配的目标音频，并确定目标音频属于与目标文本描述信息匹配的音频数据。这样，本申请通过引入离散音频特征作为文本描述信息与音频数据之间的中间特征表示，来弥合文本描述信息与音频数据之间的差距，从而有效地提高了模型输出音频与输入文本之间的匹配程度，有利于提高文本生成音频的精确度。

技术关键词

音频特征音频生成方法大语言模型文本矢量量化器字幕解码器数据编码器机器可读指令样本生成装置处理器可读存储介质电子设备存储器参数计算机

系统为您推荐了相关专利信息

入排标准的自动化制定方法、装置、电子设备及存储介质

深度学习模型训练集多任务电子设备可读存储介质

一种基于多模型协同的智能机械臂控制系统方案

多模型协同文本规划翻译模型机械臂控制系统

一种虚拟数字人生成方法

三维模型线性插值方法生成方法特征点生成视频序列

一种模型训练方法、装置、电子设备、芯片及介质

节点模型训练方法网络特征长短期记忆网络模型训练装置

一种融合稳定扩散和风格迁移的声纳图像生成方法

图像生成方法风格矩阵水下声纳图像表达式

一种音频生成方法、装置、设备及存储介质

站点导航

APP 下载