摘要
本申请提供了一种基于语音驱动的唇型生成方法、设备及介质,涉及计算机视觉领域,方法包括:获取原始目标视频的音频信号;构建音频‑表情系数映射网络;将音频信号输入音频‑表情系数映射网络进行训练,得到目标人物的混合变形系数;音频‑表情系数映射网络包括:特征提取模块、自注意力增强模块以及个性化表情转换模块;构建目标人物的3D渲染面部图像;对3D渲染面部图像进行神经纹理映射,生成特征图;通过特征图,渲染3D渲染面部图像的嘴部区域,得到高分辨率的嘴部渲染图像;通过高分辨率的嘴部渲染图像,结合背景合成网络,得到基于语音驱动的唇型生成视频。本申请的技术方案能够显著降低训练成本,并有效解决静默音时的唇形抖动。
技术关键词
面部
生成方法
特征提取模块
语音
图像
音频特征
生成特征
人脸模型
多尺度卷积核
视频
动态变化特征
时间滤波器
网络接口
注意力
动态纹理
可读存储介质
系统为您推荐了相关专利信息
机器人抓取
对象
机器人视觉识别
深度相机
阈值分割算法
直方图均衡化
自主识别系统
像素
轨迹误差
非局部均值滤波
图像盲去模糊方法
深度神经网络
分层
退化模型
解码器结构