一种音唇同步识别方法、装置、计算机设备及存储介质

正文

推荐专利

申请号：CN202411074615

申请日期：2024-08-06

公开号：CN119206561A

公开日期：2024-12-27

类型：发明专利

摘要

本申请实施例属于音视频图像处理技术领域，涉及一种音唇同步识别方法、装置、计算机设备及存储介质，该方法包括：首先，通过视觉3D卷积网络提取视频的视觉特征，同时利用音频2D卷积网络提取音频特征；这两种特征分别捕捉了唇形变化和语音信息；然后，本发明巧妙地运用门控循环神经网络，将视觉和音频特征进行深度融合，生成全局特征；最后，基于融合后的特征，通过音唇同步分类器进行识别。本申请能够有效捕捉音频与唇形之间的时序关系，大大提高了音唇同步识别的准确性，为视频质量评估和异常检测提供了可靠的技术支持。

技术关键词

视觉特征提取音唇同步同步识别方法门控循环神经网络音频特征数据计算机可读指令时序特征视频帧音频特征提取图像裁剪方法关键点人脸检测算法融合特征

系统为您推荐了相关专利信息

一种水生生物的风格迁移的图像识别方法及系统

病害特征局部图像特征图像识别方法风格生物

一种基于多角度优化的小样本目标检测方法和装置

样本区域候选网络分类网络特征融合网络多角度

一种基于多模态感知的轨迹预测方法及系统

轨迹预测方法多模态轨迹预测模型复杂度节点

一种基于图像的五元特征检测模型训练方法、系统及设备

检测模型训练方法图片元素视觉特征提取预测类别

基于多模态场景感知的直播内容实时推荐方法

推荐方法动态场景多模态频谱特征热力图

一种音唇同步识别方法、装置、计算机设备及存储介质

站点导航

APP 下载