摘要
本发明涉及一种数字人说话视频合成方法,步骤如下:通过外观编码器和运动编码器得到外观特征和运动特征;源图的3D隐式关键点由以下等式构建得到:xs=ss·(xc,sRs+δs)+ts;基于音频到位姿转换器、音频到表情转换器、音频到口型转换器得到表示位置和姿态的特征、表情变形和表情变形偏移量;将转换器的输出输入给融合与构建模块,得到驱动3D隐式关键点;将融合与构建模块的输出与源图的3D隐式关键点输入拼接模块,得到最终的驱动隐式关键点;最终的驱动隐式关键点、源图的3D隐式关键点和外观特征输入扭曲器,输出扭曲后的外观特征;图像解码器对扭曲后的外观特征进行解码,得到一帧输出画面。本发明可以在保证效果的同时,实现实时的数字人说话视频画面合成。
技术关键词
关键点
转换器
运动编码器
图像解码器
运动特征
拼接模块
音频编码器
视频
语义
静态特征
视觉特征
画面
矩阵
面部
身份
图片