一种基于隐式关键点音频驱动的数字人说话视频合成方法

正文

推荐专利

申请号：CN202510573320

申请日期：2025-05-06

公开号：CN120499470A

公开日期：2025-08-15

类型：发明专利

摘要

本发明涉及一种数字人说话视频合成方法，步骤如下：通过外观编码器和运动编码器得到外观特征和运动特征；源图的3D隐式关键点由以下等式构建得到：xs＝ss·(xc，sRs+δs)+ts；基于音频到位姿转换器、音频到表情转换器、音频到口型转换器得到表示位置和姿态的特征、表情变形和表情变形偏移量；将转换器的输出输入给融合与构建模块，得到驱动3D隐式关键点；将融合与构建模块的输出与源图的3D隐式关键点输入拼接模块，得到最终的驱动隐式关键点；最终的驱动隐式关键点、源图的3D隐式关键点和外观特征输入扭曲器，输出扭曲后的外观特征；图像解码器对扭曲后的外观特征进行解码，得到一帧输出画面。本发明可以在保证效果的同时，实现实时的数字人说话视频画面合成。

技术关键词

关键点转换器运动编码器图像解码器运动特征拼接模块音频编码器视频语义静态特征视觉特征画面矩阵面部身份图片

一种基于隐式关键点音频驱动的数字人说话视频合成方法

站点导航

APP 下载