基于SadTalker的实时虚拟数字人播报方法

正文

推荐专利

申请号：CN202411580862

申请日期：2024-11-07

公开号：CN119653171A

公开日期：2025-03-18

类型：发明专利

摘要

本发明之基于SadTalker的实时虚拟数字人播报方法，属于计算机视觉和人工智能技术领域中的视频生成，为了提高虚拟数字人的实时性和自然逼真度，本发明包括步骤1、原始图片生成无语音视频帧；步骤2、将视频帧图片按照人脸检测算法的结果裁剪出人脸图片，并保存作为SadTalker模型的输入；步骤3、持续读取语音流并进行预处理；步骤4、将人脸图片和实时语音流经数据调度后传入SadTalker模型，增加实时短帧推理适配性修改，限制模型使用短语音推理；步骤5、人脸位置还原，并形成完整视频帧；步骤6、视频帧和语音流时间戳匹配；通过REF视频的加入，使虚拟数字人更加自然逼真，采用短帧推理技术，使虚拟数字人的视频生成过程更加高效，从而显著提高了实时性。

技术关键词

播报方法人脸图片视频帧人脸检测算法实时语音线性插值法队列人脸位置推理技术人工智能技术消息计算机视觉生成方式数据客户端采样率音频

系统为您推荐了相关专利信息

一种姿态检测与实时反馈的方法及系统

姿态估计视频帧坐标动态地图像

一种基于人工智能的智慧工厂安全预警系统

预警系统序列编码预警模块元件

一种基于比特平面的辅助性单目标跟踪对抗防御重构方法

重构方法样本跟踪器识别视频帧序列重构模型

视频素材筛选方法和装置、电子设备及存储介质

字幕视频帧素材筛选方法语义特征序列

对象描述信息的确定方法、装置、电子设备和存储介质

视频帧自然语言文本图像通信接口

基于SadTalker的实时虚拟数字人播报方法

站点导航

APP 下载