摘要
本申请涉及深度学习,计算机视觉,生成式人工智能技术领域,揭示了一种视频生成方法、装置、计算机设备及存储介质,所述方法包括:获取各个视频帧所对应的关键点位置数据以及参考图片,其中,所述参考图片是基于目标视频提取的,所述视频帧所对应的关键点位置数据是基于目标视频进行关键点生成得到的,而后基于所述关键点位置数据、所述参考图片以及视频生成模型进行视频生成,其中,所述视频生成模型包括多层MLPs模型、Pose Transformer模型、SVD模型,所述SVD模型嵌入有Gated Cross‑Attention模型,SVD模型是视频生成大模型。本发明通过嵌入有Gated Cross‑Attention模型的SVD模型根据输入姿态生成精确的动作视频,实现了细腻的姿态表达效果,保证输出的视频内容与输入条件的高度一致性。
技术关键词
视频生成模型
视频生成方法
关键点
视频生成装置
图片
计算机设备
数据
端口
可读存储介质
人工智能技术
处理器
编码特征
计算机视觉
存储器
模块