摘要
本发明实施例提供一种基于语义信息引导的视频‑音频生成方法及系统。该方法包括:将视频帧以及视频的用作检测声音对象出现指导的标签信息输入至对比学习语言‑图像的预训练模型,得到视频帧的视频隐层表示以及标签信息的文本隐层表示;确定文本隐层表示以及视频隐层表示的语义相似度;将语义相似度作为引导,来预测视频的发声节点的时间戳;将视频隐层表示线性投影至音频合成模型中,利用时空信息调节器按照时间戳控制音频合成模型生成出与视频对齐的音频。本发明实施例通过视频帧以及标签信息,视频信息与数据标签信息的相似度来确认视频的每个时刻是否应该有音频生成,从而通过引入数据标签信息的引导来生成视频‑音频颗粒度对齐更好的音频。
技术关键词
信息调节器
适配器
音频生成方法
语义
文本
视频帧
数据标签
发声
图像
对象
处理器
模块
线性
节点
计算机程序产品
训练系统
编码器