一种基于自然语言描述文本的高表现力音频生成方法

正文

推荐专利

申请号：CN202411028162

申请日期：2024-07-30

公开号：CN119274533B

公开日期：2025-11-28

类型：发明专利

摘要

一种基于自然语言描述文本的高表现力音频生成方法，包括：S1：利用预训练多语言文本编码器对输入的自然语言描述指令进行编码，提取语义信息；S2：以文本编码表征作为条件，通过自回归模型(AR)依次预测音频的语义单元序列，其表示音频中出现的内容事件信息；S3：以文本编码表征和S2输出的音频语义单元序列作为前缀条件，通过AR预测音频的粗粒度声学单元序列，决定音频整体时长和基本声学信息；S4：利用非自回归模型(NAR)预测音频的细粒度声学单元序列，建模音频细节表现和高频信息；S5：将多层声学单元序列输入声码器，生成高质量的音频波形。该方法直接支持由一句自然语言描述指令来生成音频，并提升生成音频的自然度、表现力和可控性。

技术关键词

音频生成方法文本编码器语义序列多语言理解自然语言指令标记声学特征小规模风格语音策略阶段声码器分类器

系统为您推荐了相关专利信息

一种融合大语言模型世界知识的推荐系统纠偏方法

大语言模型推荐系统编码向量纠偏方法混合专家网络

一种与过敏性鼻炎相关的SNP分子标记组合及其应用

过敏性鼻炎数据导入模块数据输出模块数据分析模块标记

基于大语言模型的业务流程处理方法及系统

大语言模型会话关系网络注意力层级

一种机器人的手部运动序列的构建方法、装置、机器人及介质

文本字符索引序列机器人

基于电磁场中热力学模型的荔枝保鲜解冻温度控制模型的建模方法

模糊PID控制器 GRU模型温度控制策略荔枝保鲜建模方法

一种基于自然语言描述文本的高表现力音频生成方法

站点导航

APP 下载