摘要
本申请实施例公开了一种语音驱动的数字人视频生成方法和装置,用以提高语音驱动的数字人视频的生成质量。方法包括:获取驱动语音和人物参考图像;将所述驱动语音和所述人物参考图像输入数字人视频生成模型,得到连续视频帧,其中,所述数字人视频生成模型是基于人物视频的人物参考图像和音频构建的训练样本和基于所述人物视频的连续视频帧构建的训练标签训练得到的;对所述驱动语音和所述连续视频帧执行音视频编码,得到数字人视频。
技术关键词
视频生成模型
视频帧特征
音频
序列
视频生成方法
标签
图像解码器
图像编码器
人脸关键点提取
坐标
计算机程序产品
语音特征
注意力
系统为您推荐了相关专利信息
文本
实时语音
离散傅立叶变换
语音识别模型
特征提取算法
关键点
机电设备
坐标转换算法
资产定位方法
指针
耳机接口
延时开关电路
延迟开关电路
RC延时电路
主控芯片
运动训练
多模态数据融合
推荐方法
知识图谱嵌入方法
静态特征