摘要
本公开提供了一种视频生成和视频生成模型的训练方法、装置、设备和介质,涉及计算机视觉、深度学习、大模型等技术领域,可应用于AIGC、数字人、智能电商等场景。具体实现方案为:获取动作姿态序列和展示有目标对象的参考图像;其中,动作姿态序列中的元素表征根据人体关键点生成的动作姿态;对参考图像进行编码,得到目标对象的外观特征;从动作姿态序列中提取姿态指导特征,并根据姿态指导特征、噪声特征和外观特征,生成目标特征;对目标特征进行解码,得到展示有目标对象的动作驱动视频。
技术关键词
视频生成模型
噪声特征
输出特征
视频生成方法
调制特征
注意力机制
序列
人体关键点
对象
编码
元素
图像
视频生成装置
解码模块
处理器