摘要
本发明提供一种基于潜在空间导航学习的图像视频生成方法、装置、设备、介质及程序产品,涉及人工智能技术领域。该方法包括:获取初始图像和驱动视频;其中,所述初始图像表征为包含第一人脸的静态图像,所述驱动视频表征为包含第二人脸的动态视频,所述第二人脸具有多个人脸动作信息;将所述初始图像和所述驱动视频输入训练好的图像视频生成模型,输出目标图像视频。本发明提供的实施例用以解决现有技术中存在的成本高、泛化能力弱、自由度受限的缺陷,实现无需标注人脸图像关键点,利用训练好的图像视频生成模型直接学习驱动视频的运动模式,以生成目标图像视频,模型的泛化能力高,可灵活捕捉非线性运动,突破传统的自由度限制。
技术关键词
视频生成方法
视频生成模型
图像
样本
人脸动作
多尺度
运动
非暂态计算机可读存储介质
金字塔
视频生成装置
解码
处理器
字典
上采样
网络
人工智能技术
动态
计算机程序产品