摘要
本发明涉及一种高质量视频生成音频方法,包括以下步骤:S1:基于语义预训练模型对视频进行处理,得到语义信息;基于视频理解预训练模型对视频进行处理,得到视频理解特征;S2:根据视频理解特征获取固定长度的视频帧;S3:将固定长度的视频帧输入Seq2Seq模型,Seq2Seq模型输出音频帧的发声预测,音频帧的发声预测为RMS值;S4:将RMS值离散化为64个离散的数值,方式如下:d(r)=math.floor(64*(ln(1+63|r|)/ln(64))),d(r)为64个离散的数值,r为RMS的值;离散化后的RMS值对应256维的embedding向量;S5:基于语义信息和256维的embedding向量训练,引导音频表征生成模块;S6:基于音频表征生成模块,采用声码器还原,生成音频。本发明可以提高生成音频与视频的时间对齐效果和质量。
技术关键词
音频
视频帧
预训练模型
语义
发声
声码器
数值
标记
序列
模块
系统为您推荐了相关专利信息
频域特征
音频
输入神经网络模型
可穿戴设备
非接触式
配料控制系统
人工智能模型
预训练模型
训练集
数据分析模块
数据项
语义标签
纸质表单
数据智能识别
图像采集设备
病灶识别方法
医学病灶图像
样本
线性回归模型
多标签