基于语义信息引导的视频-音频生成方法及系统

正文

推荐专利

申请号：CN202411448324

申请日期：2024-10-16

公开号：CN119296510B

公开日期：2025-12-02

类型：发明专利

摘要

本发明实施例提供一种基于语义信息引导的视频‑音频生成方法及系统。该方法包括：将视频帧以及视频的用作检测声音对象出现指导的标签信息输入至对比学习语言‑图像的预训练模型，得到视频帧的视频隐层表示以及标签信息的文本隐层表示；确定文本隐层表示以及视频隐层表示的语义相似度；将语义相似度作为引导，来预测视频的发声节点的时间戳；将视频隐层表示线性投影至音频合成模型中，利用时空信息调节器按照时间戳控制音频合成模型生成出与视频对齐的音频。本发明实施例通过视频帧以及标签信息，视频信息与数据标签信息的相似度来确认视频的每个时刻是否应该有音频生成，从而通过引入数据标签信息的引导来生成视频‑音频颗粒度对齐更好的音频。

技术关键词

信息调节器适配器音频生成方法语义文本视频帧数据标签发声图像对象处理器模块线性节点计算机程序产品训练系统编码器

基于语义信息引导的视频-音频生成方法及系统

站点导航

APP 下载