摘要
本发明公开了一种说话头生成方法及系统,所述方法包括,获取目标人物头视频并将视频拆分成视频帧和音频帧,基于视频帧得到空间编码特征;获取音频编码特征;获取口腔区域视频帧,获取口腔空间编码特征;获取面部分支、口腔分支和面部动作单元;将空间编码特征和音频编码特征以及面部动作单元输入残差增强交叉模态融合网络得到融合特征,基于融合特征得到第一注意向量;获取第二注意向量;基于第一注意向量和第二注意向量得到说话头视频。本发明可以实现说话头视频嘴唇同步和表达细节更优。
技术关键词
面部动作单元
编码特征
音频编码
融合特征
多层感知器
视频帧
音频特征
一维卷积神经网络
分支
注意力
生成方法
编码模块
通道
图像
生成系统