基于语音情绪驱动的唇动视频生成方法与系统

正文

推荐专利

申请号：CN202510540655

申请日期：2025-04-27

公开号：CN120412629A

公开日期：2025-08-01

类型：发明专利

摘要

本申请实施例提供的基于语音情绪驱动的唇动视频生成方法与系统，通过获取原始语音数据和人脸图像；对原始语音数据进行特征提取，得到多种语音特征；对多种语音特征进行融合，得到多模态特征；通过预先训练好的情绪识别网络，对多模态特征进行情绪参数的识别；根据原始语音数据和人脸图像，生成唇动视频帧序列；对唇动视频帧序列中的每一唇动视频帧进行人脸关键点检测，得到每一唇动视频帧对应的关键点集合；通过预设映射函数和情绪参数，对每一唇动视频帧对应的关键点集合进行调整，得到每一唇动视频帧对应的调整后的关键点集合；根据每一唇动视频帧对应的调整后的关键点集合和人脸图像，生成唇动视频。可使得唇动视频中人物更加生动。

技术关键词

视频帧语音特征多模态特征人脸关键点检测视频生成方法图像人脸关键点提取特征提取模块视频生成系统序列参数可读存储介质数据获取模块

基于语音情绪驱动的唇动视频生成方法与系统

站点导航

APP 下载