摘要
本发明提供了一种基于RDDM的高质量说话人脸视频生成方法及系统,包括以下步骤:获取人脸参考图像、风格参考视频和音频片段;本发明通过获取人脸参考图像以及对应的风格参考视频和音频片段,对风格参考视频以及音频片段分别进行相应处理,得到对应的风格特征以及语音特征;然后将风格特征和语音特征输入到基于RDDM的解码器中,进行正向扩散和反向扩散得到预测的3D面部运动,使重建出的3D面部运动数据清晰无残差,准确的呈现出所需的面部表情细节和运动轨迹,最后,再通过图像渲染器将3D面部运动和参考图像作为输入来生成说话的面部,提高了说话人脸视频的生成质量和视觉效果。
技术关键词
视频生成方法
语音特征
面部运动数据
人脸
风格
音频编码器
Word2Vec模型
恢复面部
噪声数据
解码器
识别工具
图像
视频生成系统
注意力
系统为您推荐了相关专利信息
遮挡人脸图像
图像修复模型
数据构建方法
基础
透明度
预训练模型
语音检测方法
语音分类模型
样本
数据
电力实训系统
智能调控系统
配电系统
OPCUA协议
错误检测