摘要
本申请涉及一种音频生成方法、装置及其应用。该方法包括:获取条件信息,条件信息包括文本提示;对文本提示进行解析,生成至少一个事件集合,其中,事件集合中包括至少一个事件子提示以及每个事件子提示对应的时间窗口,各时间窗口相互独立且起止节点连续;基于文本提示以及各事件集合,利用预训练的扩散模型进行采样处理,生成目标音频。本申请提供的方案,能够适应自然语言描述的条件,实现文本驱动下的可控长时音频生成,且能够确保时间与语义的精准对齐,生成高质量的音频。
技术关键词
音频生成方法
文本
交叉注意力机制
时序
处理器
键值
电子设备
时间段
生成装置
自然语言
节点
可读存储介质
模块
重构
语义
分段
变量
系统为您推荐了相关专利信息
珠宝结构
对称轴
缺陷检测参数
定位技术
转换算法
音频特征数据
降噪控制方法
降噪模型
滤波器系数更新
车辆主动降噪
注意力机制
语义分割方法
RGB特征
解码器
编码器
真伪鉴定方法
人脸轮廓
人脸关键点检测
图像
构造轮廓
多机器人系统
序列
多机器人编队
编队控制系统
轨迹