摘要
本申请实施例公开了一种视频生成方法、视频生成模型的训练方法和相关装置。主要技术方案包括:获取人脸图像和视频描述文本;所述人脸图像包括目标人脸;从所述人脸图像中提取所述目标人脸的二维特征和三维特征;将所述目标人脸的二维特征和三维特征进行融合,得到所述目标人脸的身份特征表示;基于所述身份特征表示和所述视频描述文本,预测得到包含所述目标人脸的目标视频。本申请能够有效捕捉目标人脸的多维度特征,从而生成更加真实和自然的目标视频。
技术关键词
视频生成模型
人脸
身份
视频生成方法
文本
噪声图像
变换器模块
损失函数取值
顶点
网络
生成调制信号
视频生成装置
坐标
多头注意力机制
融合特征
样本
特征提取单元
计算机程序产品
系统为您推荐了相关专利信息
语义标签
信息补全方法
文本
预训练语言模型
语义角色标注