摘要
本发明提出一种人脸表情操纵视频生成方法、设备及存储介质,涉及计算机视觉与自然语言处理的技术领域,方法包括获取人脸表情操纵视频数据集,利用人脸表情操纵视频数据集对个性化的情感提示学习模块进行训练,利用训练好的情感提示学习模块从人脸表情操纵视频数据集中提取个性化文本嵌入对和以情绪为中心的视觉嵌入对,并利用视觉‑文本情绪差异相关正则化模块约束个性化文本嵌入对和视觉嵌入对在嵌入空间中对齐,生成模型监督信号;通过模型监督信号指导预设的视觉图像生成模型生成反映目标情感的视觉图像,将视觉图像渲染成人脸表情操纵视频,本发明能够有效对情绪操纵进行监督,防止视频生成局部失真,使得视频生成具有真实感。
技术关键词
人脸表情
视频生成方法
文本
图像生成模型
投影模块
计算机设备
数据
跨模态
通信接口
语义
计算机视觉
信号
表达式
标记器
存储器