一种基于自然语言描述文本的高表现力音频生成方法

AITNT
正文
推荐专利
一种基于自然语言描述文本的高表现力音频生成方法
申请号:CN202411028162
申请日期:2024-07-30
公开号:CN119274533B
公开日期:2025-11-28
类型:发明专利
摘要
一种基于自然语言描述文本的高表现力音频生成方法,包括:S1:利用预训练多语言文本编码器对输入的自然语言描述指令进行编码,提取语义信息;S2:以文本编码表征作为条件,通过自回归模型(AR)依次预测音频的语义单元序列,其表示音频中出现的内容事件信息;S3:以文本编码表征和S2输出的音频语义单元序列作为前缀条件,通过AR预测音频的粗粒度声学单元序列,决定音频整体时长和基本声学信息;S4:利用非自回归模型(NAR)预测音频的细粒度声学单元序列,建模音频细节表现和高频信息;S5:将多层声学单元序列输入声码器,生成高质量的音频波形。该方法直接支持由一句自然语言描述指令来生成音频,并提升生成音频的自然度、表现力和可控性。
技术关键词
音频生成方法 文本编码器 语义 序列 多语言 理解自然语言 指令 标记 声学特征 小规模 风格 语音 策略 阶段 声码器 分类器
系统为您推荐了相关专利信息
1
一种融合大语言模型世界知识的推荐系统纠偏方法
大语言模型 推荐系统 编码向量 纠偏方法 混合专家网络
2
一种与过敏性鼻炎相关的SNP分子标记组合及其应用
过敏性鼻炎 数据导入模块 数据输出模块 数据分析模块 标记
3
基于大语言模型的业务流程处理方法及系统
大语言模型 会话 关系网络 注意力 层级
4
一种机器人的手部运动序列的构建方法、装置、机器人及介质
文本 字符 索引 序列 机器人
5
基于电磁场中热力学模型的荔枝保鲜解冻温度控制模型的建模方法
模糊PID控制器 GRU模型 温度控制策略 荔枝保鲜 建模方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号