摘要
本申请涉及人工智能技术领域,公开了一种人脸视频生成方法及其模型训练方法、装置及相关设备。该人脸视频生成模型训练方法包括:获取待处理的初始人脸图像、初始音频数据、以及情绪标签;通过预设的3D人脸重建工具处理初始人脸图像,得到第一表情特征数据;从初始音频数据提取初始音频特征数据,根据情绪标签生成对应的情绪单热特征向量;融合第一表情特征数据、初始音频特征数据和情绪单热特征向量,得到第一人脸表情系数;注入预设的噪声数据至初始人脸图像,得到第二人脸图像;输入初始人脸图像、第二人脸图像和第一人脸表情系数至预设的条件扩散模型,得到带表情的目标人脸视频,生成的人脸视频更加精准表达情绪标签所对应的面部表情。
技术关键词
视频生成模型
人脸表情
音频特征数据
表情特征
视频生成方法
非易失性计算机可读存储介质
图像特征数据
生成器网络
人脸纹理
噪声数据
注意力
计算机可执行指令
模型训练方法
编码器模块
深度学习模型
系统为您推荐了相关专利信息
人体动作数据
数据集获取方法
视频生成模型
动作捕捉设备
动画
人脸关键点检测
人脸识别数据
人脸表情识别
多任务
解析方法
宠物情绪识别
情绪识别方法
多模态特征
融合特征
深度学习模型训练
噪声特征
视频生成方法
语义标签
音频特征
噪声系数
音频特征
视频生成方法
图像
计算机程序指令
语义特征提取