一种多模态驱动的视频生成方法、装置、计算机设备及可读存储介质

AITNT
正文
推荐专利
一种多模态驱动的视频生成方法、装置、计算机设备及可读存储介质
申请号:CN202410785790
申请日期:2024-06-18
公开号:CN118803301A
公开日期:2024-10-18
类型:发明专利
摘要
本发明公开了一种多模态驱动的视频生成方法、装置、计算机设备及可读存储介质,包括:首先获取用户需求文本和多媒体内容,通过编码处理得到对应的特征向量。接着,利用预先训练的多模态融合模型将这些特征向量融合,生成一个融合特征向量。该融合向量被输入到预先训练的视频生成模型中,以产生初始视频内容。同时,此融合特征向量还与初始视频一起被送入音频生成模型,以生成相应的音频。最后,将初始视频与生成的音频进行拼接,形成最终的目标视频。如此设计,通过多模态信息的深度融合,实现了视频内容的个性化和丰富性,满足了用户对高质量视频的需求。
技术关键词
视频生成模型 多媒体 文本 视频特征向量 视频生成方法 音频 计算机设备 图片 可读存储介质 视频生成装置 多模态信息 视频帧 分词 编码器 编码模块 处理器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号