摘要
本申请公开了一种人脸关键点运动图像生成方法以及相关设备,可以获取参考图像帧,并调用人脸关键点预测模型提取参考图像帧中人脸对应的人脸关键点信息;获取目标音频,并调用音频特征模型提取目标音频的目标音频特征;基于预设窗口尺寸,从目标音频特征中截取待处理音频特征,并获取待处理音频特征对应的至少一个前序图像帧;基于待添加噪声、迭代过程对应的时间步数值、人脸关键点信息、待处理音频特征、以及前序图像帧,调用扩散网络模型通过多次迭代过程预测参考图像帧在目标音频下的人脸关键点运动图像。本申请可生成自然且准确的人脸关键点运动图像。
技术关键词
人脸关键点
运动图像生成方法
音频特征
样本
网络
数值
音频编码器
运动图像生成装置
视频
噪声图像
可读存储介质
计算机程序产品
处理器
系统为您推荐了相关专利信息
模拟滤波器
道路缺陷检测
市政道路管理
参数
地质雷达
多头注意力机制
分割方法
语义标签
特征提取网络
前馈神经网络
中央控制单元
智能控制系统
工艺参数优化算法
人工智能技术
气相沉积设备