摘要
本发明涉及一种视频背景音乐生成方法、装置及存储介质,涉及视频处理技术领域。本申请将待处理的视频分解为目标视频图像帧集和目标视频原声序列,并分别提取目标文本描述序列和目标字幕序列;通过条件特征提取模块从目标视频图像帧集、目标视频原声序列、目标文本描述序列和目标字幕序列中分别提取时序的目标视频图像帧条件特征、目标视频原声条件特征、目标文本描述条件特征和目标字幕条件特征;通过背景音乐条件配置器将各条件特征处理成目标条件特征;预训练的音乐生成扩散模型将目标条件特征引入到各反向过程的潜空间特征中以生成背景音乐。
技术关键词
视频背景音乐
生成方法
字幕
编码器
文本
注意力
图像
特征提取模块
残差结构
解码器
语音
存储计算机程序
bert模型
处理单元
存储单元
序列方法
可读存储介质
系统为您推荐了相关专利信息
多模态深度
模态特征
音频编码器
表达式
视频特征提取