一种多模态驱动的视频生成方法、装置、计算机设备及可读存储介质

正文

推荐专利

申请号：CN202410785790

申请日期：2024-06-18

公开号：CN118803301A

公开日期：2024-10-18

类型：发明专利

摘要

本发明公开了一种多模态驱动的视频生成方法、装置、计算机设备及可读存储介质，包括：首先获取用户需求文本和多媒体内容，通过编码处理得到对应的特征向量。接着，利用预先训练的多模态融合模型将这些特征向量融合，生成一个融合特征向量。该融合向量被输入到预先训练的视频生成模型中，以产生初始视频内容。同时，此融合特征向量还与初始视频一起被送入音频生成模型，以生成相应的音频。最后，将初始视频与生成的音频进行拼接，形成最终的目标视频。如此设计，通过多模态信息的深度融合，实现了视频内容的个性化和丰富性，满足了用户对高质量视频的需求。

技术关键词

视频生成模型多媒体文本视频特征向量视频生成方法音频计算机设备图片可读存储介质视频生成装置多模态信息视频帧分词编码器编码模块处理器

一种多模态驱动的视频生成方法、装置、计算机设备及可读存储介质

站点导航

APP 下载