一种音频生成方法、装置、设备及存储介质

AITNT
正文
推荐专利
一种音频生成方法、装置、设备及存储介质
申请号:CN202411078762
申请日期:2024-08-07
公开号:CN118887940A
公开日期:2024-11-01
类型:发明专利
摘要
本申请提供了一种音频生成方法、装置、设备及存储介质,该音频生成方法包括:将目标文本描述信息输入预先训练好的大语言模型中,得到大语言模型输出的与目标文本描述信息匹配的目标离散音频特征;将目标离散音频特征输入预先训练好的潜在扩散模型中,得到潜在扩散模型输出的与目标离散音频特征匹配的目标音频,并确定目标音频属于与目标文本描述信息匹配的音频数据。这样,本申请通过引入离散音频特征作为文本描述信息与音频数据之间的中间特征表示,来弥合文本描述信息与音频数据之间的差距,从而有效地提高了模型输出音频与输入文本之间的匹配程度,有利于提高文本生成音频的精确度。
技术关键词
音频特征 音频生成方法 大语言模型 文本 矢量量化器 字幕 解码器 数据 编码器 机器可读指令 样本 生成装置 处理器 可读存储介质 电子设备 存储器 参数 计算机
系统为您推荐了相关专利信息
1
入排标准的自动化制定方法、装置、电子设备及存储介质
深度学习模型 训练集 多任务 电子设备 可读存储介质
2
一种基于多模型协同的智能机械臂控制系统方案
多模型协同 文本 规划 翻译模型 机械臂控制系统
3
一种虚拟数字人生成方法
三维模型 线性插值方法 生成方法 特征点 生成视频序列
4
一种模型训练方法、装置、电子设备、芯片及介质
节点 模型训练方法 网络特征 长短期记忆网络 模型训练装置
5
一种融合稳定扩散和风格迁移的声纳图像生成方法
图像生成方法 风格 矩阵 水下声纳图像 表达式
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号