一种高质量视频生成音频方法

AITNT
正文
推荐专利
一种高质量视频生成音频方法
申请号:CN202510098110
申请日期:2025-01-22
公开号:CN119988671A
公开日期:2025-05-13
类型:发明专利
摘要
本发明涉及一种高质量视频生成音频方法,包括以下步骤:S1:基于语义预训练模型对视频进行处理,得到语义信息;基于视频理解预训练模型对视频进行处理,得到视频理解特征;S2:根据视频理解特征获取固定长度的视频帧;S3:将固定长度的视频帧输入Seq2Seq模型,Seq2Seq模型输出音频帧的发声预测,音频帧的发声预测为RMS值;S4:将RMS值离散化为64个离散的数值,方式如下:d(r)=math.floor(64*(ln(1+63|r|)/ln(64))),d(r)为64个离散的数值,r为RMS的值;离散化后的RMS值对应256维的embedding向量;S5:基于语义信息和256维的embedding向量训练,引导音频表征生成模块;S6:基于音频表征生成模块,采用声码器还原,生成音频。本发明可以提高生成音频与视频的时间对齐效果和质量。
技术关键词
音频 视频帧 预训练模型 语义 发声 声码器 数值 标记 序列 模块
系统为您推荐了相关专利信息
1
一种数据检索方法、装置、电子设备及存储介质
数据检索方法 语句 序列 分词方法 索引
2
非接触式音频处理方法及系统、可穿戴设备、存储介质
频域特征 音频 输入神经网络模型 可穿戴设备 非接触式
3
一种基于PLC的配料控制系统及方法
配料控制系统 人工智能模型 预训练模型 训练集 数据分析模块
4
一种纸质表单数据智能识别与存储方法及系统
数据项 语义标签 纸质表单 数据智能识别 图像采集设备
5
一种深度低秩多标签分类的医学病灶识别方法
病灶识别方法 医学病灶图像 样本 线性回归模型 多标签
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号