摘要
本申请公开了一种数字人视频生成方法、装置、设备及介质,涉及计算机技术领域,包括:获取投顾对话场景下的目标说话对象图像和目标音频数据;将目标说话对象图像和所述目标音频数据输入至目标数字人模型,以便通过目标数字人模型根据目标音频数据进行关键点序列预测,以得到用于控制数字人说话时头部动作和上半身肢体动作的目标关键点序列;通过目标数字人模型并根据目标关键点序列、目标说话对象图像、目标音频数据的音频特征控制并合成连续的数字人视频。将肢体动作、头部姿态融合到音频驱动的扩散网络中,使生成的数字人视频充分考虑了对话场景下的音频与动作交互和音频提供的时序信息。
技术关键词
视频生成方法
网络
音频特征
噪声图像
训练集
肢体动作控制
对象
更新模型参数
数据
人脸关键点
序列
注意力
视频生成装置
生成数字人
动作交互
时序
系统为您推荐了相关专利信息
拜占庭容错
隐马尔可夫模型
签名算法
Petri网模型
验证阈值
生成对抗模型
冠状动脉造影
调控方法
多尺度特征融合网络
射线
分布式发电单元
网络系统
状态空间模型
直流微电网
故障检测方法
梅尔频率倒谱系数
跨模态
多模态
加权特征
分层特征