一种高质量视频生成音频方法

正文

推荐专利

一种高质量视频生成音频方法

申请号：CN202510098110

申请日期：2025-01-22

公开号：CN119988671A

公开日期：2025-05-13

类型：发明专利

摘要

本发明涉及一种高质量视频生成音频方法，包括以下步骤：S1：基于语义预训练模型对视频进行处理，得到语义信息；基于视频理解预训练模型对视频进行处理，得到视频理解特征；S2：根据视频理解特征获取固定长度的视频帧；S3：将固定长度的视频帧输入Seq2Seq模型，Seq2Seq模型输出音频帧的发声预测，音频帧的发声预测为RMS值；S4：将RMS值离散化为64个离散的数值，方式如下：d(r)＝math.floor(64*(ln(1+63|r|)/ln(64)))，d(r)为64个离散的数值，r为RMS的值；离散化后的RMS值对应256维的embedding向量；S5：基于语义信息和256维的embedding向量训练，引导音频表征生成模块；S6：基于音频表征生成模块，采用声码器还原，生成音频。本发明可以提高生成音频与视频的时间对齐效果和质量。

技术关键词

音频视频帧预训练模型语义发声声码器数值标记序列模块

系统为您推荐了相关专利信息

一种数据检索方法、装置、电子设备及存储介质

数据检索方法语句序列分词方法索引

非接触式音频处理方法及系统、可穿戴设备、存储介质

频域特征音频输入神经网络模型可穿戴设备非接触式

一种基于PLC的配料控制系统及方法

配料控制系统人工智能模型预训练模型训练集数据分析模块

一种纸质表单数据智能识别与存储方法及系统

数据项语义标签纸质表单数据智能识别图像采集设备

一种深度低秩多标签分类的医学病灶识别方法

病灶识别方法医学病灶图像样本线性回归模型多标签

一种高质量视频生成音频方法

站点导航

APP 下载