摘要
本申请涉及一种音频生成方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取参考音频和待输出文本;将参考音频的音频信息和待输出文本的文本信息作为提示词输入至生成式大语言模型中,通过生成式大语言模型基于音频信息和文本信息提取出目标特征;目标特征包含参考音频的音色特征和待输出文本的语义特征;提取出参考音频的梅尔频谱特征,将梅尔频谱特征和目标特征输入至解码器中,通过解码器基于梅尔频谱特征的提示对目标特征进行解码处理,得到目标音频;目标音频具有参考音频的音色和待输出文本的语义。采用本方法能够提高音色合成效果。
技术关键词
音色特征
大语言模型
频谱特征
音频特征
文本信息提取
音频生成方法
语义特征
向量特征提取
语音特征提取
融合特征
解码器
样本
计算机设备
计算机程序产品
注意力
编码
处理器
系统为您推荐了相关专利信息
数据采集方法
容器
数据采集策略
数据采集组件
大语言模型
网络流量日志
大语言模型
动态更新
动态记忆网络
注意力机制