摘要
本发明公开了一种基于辐射光场的虚拟数字人生成算法系统,包括:数据集获取单元,用于获取并预处理视频数据,包含:视频数据获取模块,从外部设备获取时长为几分钟的视频数据,该模块支持多种视频格式,确保数据来源广泛;数据预处理模块,将视频数据按80%训练集、20%测试集切分,利用opengl或开源视角提取模型提取相机视角,从视频中提取音频序列并保存为WAV格式,对背景图进行裁剪、归一化等预处理操作,通过独特的NLDF网络架构和知识精馏技术,能够生成具有高视觉质量的3D说话人,其生成的面部表情和口型与真实说话人高度相似,在细节表现上更加逼真,如准确的眨眼动作捕捉等。
技术关键词
音频
视频
生成算法
动态可控
模型训练模块
数据获取模块
视角
人面部表情
背景图
系统运行状态
外部设备
语音同步
超参数
光束
精馏技术
采样点
网络深度