基于SadTalker的实时虚拟数字人播报方法

AITNT
正文
推荐专利
基于SadTalker的实时虚拟数字人播报方法
申请号:CN202411580862
申请日期:2024-11-07
公开号:CN119653171A
公开日期:2025-03-18
类型:发明专利
摘要
本发明之基于SadTalker的实时虚拟数字人播报方法,属于计算机视觉和人工智能技术领域中的视频生成,为了提高虚拟数字人的实时性和自然逼真度,本发明包括步骤1、原始图片生成无语音视频帧;步骤2、将视频帧图片按照人脸检测算法的结果裁剪出人脸图片,并保存作为SadTalker模型的输入;步骤3、持续读取语音流并进行预处理;步骤4、将人脸图片和实时语音流经数据调度后传入SadTalker模型,增加实时短帧推理适配性修改,限制模型使用短语音推理;步骤5、人脸位置还原,并形成完整视频帧;步骤6、视频帧和语音流时间戳匹配;通过REF视频的加入,使虚拟数字人更加自然逼真,采用短帧推理技术,使虚拟数字人的视频生成过程更加高效,从而显著提高了实时性。
技术关键词
播报方法 人脸图片 视频帧 人脸检测算法 实时语音 线性插值法 队列 人脸位置 推理技术 人工智能技术 消息 计算机视觉 生成方式 数据 客户端 采样率 音频
系统为您推荐了相关专利信息
1
一种姿态检测与实时反馈的方法及系统
姿态估计 视频帧 坐标 动态地 图像
2
一种基于人工智能的智慧工厂安全预警系统
预警系统 序列 编码 预警模块 元件
3
一种基于比特平面的辅助性单目标跟踪对抗防御重构方法
重构方法 样本 跟踪器 识别视频帧序列 重构模型
4
视频素材筛选方法和装置、电子设备及存储介质
字幕 视频帧 素材筛选方法 语义特征 序列
5
对象描述信息的确定方法、装置、电子设备和存储介质
视频帧 自然语言 文本 图像 通信接口
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号