摘要
本申请提供了一种音频生成方法、装置、设备及存储介质,该音频生成方法包括:将目标文本描述信息输入预先训练好的大语言模型中,得到大语言模型输出的与目标文本描述信息匹配的目标离散音频特征;将目标离散音频特征输入预先训练好的潜在扩散模型中,得到潜在扩散模型输出的与目标离散音频特征匹配的目标音频,并确定目标音频属于与目标文本描述信息匹配的音频数据。这样,本申请通过引入离散音频特征作为文本描述信息与音频数据之间的中间特征表示,来弥合文本描述信息与音频数据之间的差距,从而有效地提高了模型输出音频与输入文本之间的匹配程度,有利于提高文本生成音频的精确度。
技术关键词
音频特征
音频生成方法
大语言模型
文本
矢量量化器
字幕
解码器
数据
编码器
机器可读指令
样本
生成装置
处理器
可读存储介质
电子设备
存储器
参数
计算机
系统为您推荐了相关专利信息
深度学习模型
训练集
多任务
电子设备
可读存储介质
三维模型
线性插值方法
生成方法
特征点
生成视频序列
节点
模型训练方法
网络特征
长短期记忆网络
模型训练装置