摘要
本公开涉及一种数字人视频生成方法、设备及存储介质,属于深度学习技术领域。通过接收音频信号以及参考人物图像;将音频信号输入到音频姿势序列对应关系学习模块中,输出音频信号对应的姿势序列数据;该学习模块采用已有讲话数字人视频帧预训练生成,姿势引导器采用预训练的姿势引导网络,仅对音频引导网络进行训练,训练过程中网络学习的目标为最小化所述音频引导器的输出与所述姿势引导器的输出之间的差异;将参考人物图像以及所述姿势序列数据输入到生成模型中,根据姿势序列数据依次生成视频帧;将生成的视频帧按时间顺序合成,输出数字人视频。本公开能够确保生成视频中的动作与驱动音频的一致性,有效保持人物形象的一致性。
技术关键词
视频生成方法
姿势引导器
音频特征
视频帧
序列
网络
图像
视频生成设备
信号
交叉注意力机制
语义特征
数据
融合特征
解码器
生成姿势
音频编码器
系统为您推荐了相关专利信息
深度学习模型
序列
过采样技术
预测特征
超参数调优方法