摘要
本发明涉及肖像视频生成技术领域,提供一种肖像视频生成方法、装置及电子设备,获取音频信息、参考图像、用户指示和带噪声图像;调用预先训练好的视频生成模型,其中,视频生成模型包括参考网络和去噪网络,视频生成模型通过渐进聚焦训练策略训练得到;将参考图像输入至参考网络,得到参考网络输出的目标人物特征;基于用户指示、音频信息,得到与用户指示对应的3D系数;将3D系数、目标人物特征和带噪声图像输入至去噪网络,得到去噪网络输出的目标肖像视频,其中,目标肖像视频中目标人物的头部动作与用户指示相匹配。通过整合音频驱动与用户指令的协同控制,能够高效、准确地生成执行特定头部动作的肖像视频。
技术关键词
视频生成模型
视频生成方法
面部表情特征
人脸模型
噪声图像
人物特征
运动特征
音频
网络
非暂态计算机可读存储介质
训练样本集
视频生成技术
视频生成装置
策略
电子设备
处理器
计算机程序产品
系统为您推荐了相关专利信息
视频生成方法
生成数字人
生成对抗网络架构
图像编码器
卷积模块
神经网络模型
噪声图像
生成噪声
评价方法
特征提取模块
生成器网络
视频生成方法
训练集
语音编码器
音频特征