摘要
本发明公开了一种数字人视频生成方法、设备、介质及程序产品,方法包括:首先对数字人视频素材进行数据预处理,得到预处理后的数字人序列帧图像;再对预处理后的数字人序列帧图像进行面部识别处理,得到面部序列帧图像;将文本输入转换为语音音频,将面部序列帧图像和语音音频输入至唇形同步模型,生成与语音音频精确对齐的唇部运动的第一序列帧同步图像;利用面部修复模型对第一序列帧同步图像进行面部高清修复处理,得到第二序列帧同步图像;最后利用第二序列帧同步图像和语音音频进行视频合成处理,得到数字人视频。本发明实现了支持多语言的自动化、集成化数字人视频生成,有效提高了生成效率,生成的数字人视频具有高度真实感和流畅度。
技术关键词
序列帧
视频生成方法
图像
语音
音频
计算机程序指令
视频生成设备
面部识别模型
挂件
计算机程序产品
GPU服务器
HLS协议
多语言
文本
可读存储介质
音视频
数据
系统为您推荐了相关专利信息
骨骼CT图像
级联神经网络
分割方法
计算机程序指令
尺寸