摘要
本公开提供了一种基于大模型生成音频的方法、装置、电子设备及存储介质,涉及音频合成、大模型等人工智能技术领域。具体实现方案为:在大模型生成文本的过程中,获取实时生成的文字;基于所述文字,采用预先训练的音频生成模型,依次获取所述文字的各音频单元的音频特征;所述音频单元的音频特征为离散化的音频特征,所述文字包括多个不同的音频单元的音频特征;基于各所述音频单元的音频特征,采用预先训练的声码器,合成对应的音频。本公开的技术,能够有效地缩短生成大模型输出的文字的音频的时延,并且提升了合成音频的自然度和流畅度,进而能够提高了基于大模型的语音交互的用户体验。
技术关键词
音频单元
音频特征
发音特征
文本编码器
解码器
电子设备
人工智能技术
计算机程序产品
对象
声码器
处理器通信
指令
可读存储介质
存储器
标识
系统为您推荐了相关专利信息
遥感图像语义分割
露天矿区
遥感图像数据
滑动窗口技术
语义特征
三维重建图像
CT图像处理方法
CT图像处理装置
CT成像设备
数据处理模块