摘要
本发明公开了一种说话人视频合成方法、系统、设备及存储介质,它们是一一对应的方案,方案中:首先,将静态人物肖像图的前景与背景进行了分离,从而能够更多地关注运动范围较大的关键领域;其次,通过金字塔形结构的面部扭曲流场与掩码提高了关键点引导的面部运动的精度,并且通过将身份表征引入合成过程进一步提高了视频中的身份一致性;最后,基于扩散模型无缝地将前景区域与粗糙的背景融合到说话人视频中,实现了更好的生成效果。本发明上述方案成功地缓解了边界伪影问题并提升了说话人视频合成结果中的身份一致性。
技术关键词
面部特征点
金字塔结构
序列
人像特征
身份
随机噪声
分辨率
视频
编码器
时序
网络
上采样
人脸模型
解码器
音频
视觉特征
感知损失函数
模块