摘要
一种基于自然语言描述文本的高表现力音频生成方法,包括:S1:利用预训练多语言文本编码器对输入的自然语言描述指令进行编码,提取语义信息;S2:以文本编码表征作为条件,通过自回归模型(AR)依次预测音频的语义单元序列,其表示音频中出现的内容事件信息;S3:以文本编码表征和S2输出的音频语义单元序列作为前缀条件,通过AR预测音频的粗粒度声学单元序列,决定音频整体时长和基本声学信息;S4:利用非自回归模型(NAR)预测音频的细粒度声学单元序列,建模音频细节表现和高频信息;S5:将多层声学单元序列输入声码器,生成高质量的音频波形。该方法直接支持由一句自然语言描述指令来生成音频,并提升生成音频的自然度、表现力和可控性。
技术关键词
音频生成方法
文本编码器
语义
序列
多语言
理解自然语言
指令
标记
声学特征
小规模
风格
语音
策略
阶段
声码器
分类器
系统为您推荐了相关专利信息
大语言模型
推荐系统
编码向量
纠偏方法
混合专家网络
过敏性鼻炎
数据导入模块
数据输出模块
数据分析模块
标记
模糊PID控制器
GRU模型
温度控制策略
荔枝保鲜
建模方法