一种数字人视频生成方法、装置、设备及介质

正文

推荐专利

申请号：CN202411037796

申请日期：2024-07-31

公开号：CN118842975A

公开日期：2024-10-25

类型：发明专利

摘要

本申请公开了一种数字人视频生成方法、装置、设备及介质，涉及计算机技术领域，包括：获取投顾对话场景下的目标说话对象图像和目标音频数据；将目标说话对象图像和所述目标音频数据输入至目标数字人模型，以便通过目标数字人模型根据目标音频数据进行关键点序列预测，以得到用于控制数字人说话时头部动作和上半身肢体动作的目标关键点序列；通过目标数字人模型并根据目标关键点序列、目标说话对象图像、目标音频数据的音频特征控制并合成连续的数字人视频。将肢体动作、头部姿态融合到音频驱动的扩散网络中，使生成的数字人视频充分考虑了对话场景下的音频与动作交互和音频提供的时序信息。

技术关键词

视频生成方法网络音频特征噪声图像训练集肢体动作控制对象更新模型参数数据人脸关键点序列注意力视频生成装置生成数字人动作交互时序

系统为您推荐了相关专利信息

一种多MCU固件升级方法和系统

固件升级方法固件升级系统数据报告列表

一种解决溯源证据链缺失的网络威胁固证技术

拜占庭容错隐马尔可夫模型签名算法 Petri网模型验证阈值

基于图像采集质量的冠状动脉造影射线剂量调控方法

生成对抗模型冠状动脉造影调控方法多尺度特征融合网络射线

一种基于数据驱动的直流微电网故障检测方法

分布式发电单元网络系统状态空间模型直流微电网故障检测方法

视频内容描述方法和装置、电子设备及存储介质

梅尔频率倒谱系数跨模态多模态加权特征分层特征

一种数字人视频生成方法、装置、设备及介质

站点导航

APP 下载