说话人视频合成方法、系统、设备及存储介质

正文

推荐专利

申请号：CN202410824832

申请日期：2024-06-25

公开号：CN118379401B

公开日期：2024-08-20

类型：发明专利

摘要

本发明公开了一种说话人视频合成方法、系统、设备及存储介质，它们是一一对应的方案，方案中：首先，将静态人物肖像图的前景与背景进行了分离，从而能够更多地关注运动范围较大的关键领域；其次，通过金字塔形结构的面部扭曲流场与掩码提高了关键点引导的面部运动的精度，并且通过将身份表征引入合成过程进一步提高了视频中的身份一致性；最后，基于扩散模型无缝地将前景区域与粗糙的背景融合到说话人视频中，实现了更好的生成效果。本发明上述方案成功地缓解了边界伪影问题并提升了说话人视频合成结果中的身份一致性。

技术关键词

面部特征点金字塔结构序列人像特征身份随机噪声分辨率视频编码器时序网络上采样人脸模型解码器音频视觉特征感知损失函数模块

说话人视频合成方法、系统、设备及存储介质

站点导航

APP 下载