摘要
本发明之基于SadTalker的实时虚拟数字人播报方法,属于计算机视觉和人工智能技术领域中的视频生成,为了提高虚拟数字人的实时性和自然逼真度,本发明包括步骤1、原始图片生成无语音视频帧;步骤2、将视频帧图片按照人脸检测算法的结果裁剪出人脸图片,并保存作为SadTalker模型的输入;步骤3、持续读取语音流并进行预处理;步骤4、将人脸图片和实时语音流经数据调度后传入SadTalker模型,增加实时短帧推理适配性修改,限制模型使用短语音推理;步骤5、人脸位置还原,并形成完整视频帧;步骤6、视频帧和语音流时间戳匹配;通过REF视频的加入,使虚拟数字人更加自然逼真,采用短帧推理技术,使虚拟数字人的视频生成过程更加高效,从而显著提高了实时性。
技术关键词
播报方法
人脸图片
视频帧
人脸检测算法
实时语音
线性插值法
队列
人脸位置
推理技术
人工智能技术
消息
计算机视觉
生成方式
数据
客户端
采样率
音频