一种基于RDDM的高质量说话人脸视频生成方法及系统

AITNT
正文
推荐专利
一种基于RDDM的高质量说话人脸视频生成方法及系统
申请号:CN202410941000
申请日期:2024-07-15
公开号:CN118488266B
公开日期:2024-09-17
类型:发明专利
摘要
本发明提供了一种基于RDDM的高质量说话人脸视频生成方法及系统,包括以下步骤:获取人脸参考图像、风格参考视频和音频片段;本发明通过获取人脸参考图像以及对应的风格参考视频和音频片段,对风格参考视频以及音频片段分别进行相应处理,得到对应的风格特征以及语音特征;然后将风格特征和语音特征输入到基于RDDM的解码器中,进行正向扩散和反向扩散得到预测的3D面部运动,使重建出的3D面部运动数据清晰无残差,准确的呈现出所需的面部表情细节和运动轨迹,最后,再通过图像渲染器将3D面部运动和参考图像作为输入来生成说话的面部,提高了说话人脸视频的生成质量和视觉效果。
技术关键词
视频生成方法 语音特征 面部运动数据 人脸 风格 音频编码器 Word2Vec模型 恢复面部 噪声数据 解码器 识别工具 图像 视频生成系统 注意力
系统为您推荐了相关专利信息
1
训练数据构建方法、装置、设备、存储介质和程序产品
遮挡人脸图像 图像修复模型 数据构建方法 基础 透明度
2
基于单张照片的全身重建方法
头部模型 贴图 顶点 人脸 纹理
3
基于特征增强预训练模型的有效语音检测方法、装置
预训练模型 语音检测方法 语音分类模型 样本 数据
4
一种配电系统的数字化虚实融合智慧电力实训方法、系统及介质
电力实训系统 智能调控系统 配电系统 OPCUA协议 错误检测
5
一种AI直播跟踪旋转摄影灯及其使用方法
灯具壳体 直播设备 夹持板体 控制终端 补光灯
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号