摘要
本申请实施例提供的基于语音情绪驱动的唇动视频生成方法与系统,通过获取原始语音数据和人脸图像;对原始语音数据进行特征提取,得到多种语音特征;对多种语音特征进行融合,得到多模态特征;通过预先训练好的情绪识别网络,对多模态特征进行情绪参数的识别;根据原始语音数据和人脸图像,生成唇动视频帧序列;对唇动视频帧序列中的每一唇动视频帧进行人脸关键点检测,得到每一唇动视频帧对应的关键点集合;通过预设映射函数和情绪参数,对每一唇动视频帧对应的关键点集合进行调整,得到每一唇动视频帧对应的调整后的关键点集合;根据每一唇动视频帧对应的调整后的关键点集合和人脸图像,生成唇动视频。可使得唇动视频中人物更加生动。
技术关键词
视频帧
语音特征
多模态特征
人脸关键点检测
视频生成方法
图像
人脸关键点提取
特征提取模块
视频生成系统
序列
参数
可读存储介质
数据获取模块