摘要
本申请实施例属于音视频图像处理技术领域,涉及一种音唇同步识别方法、装置、计算机设备及存储介质,该方法包括:首先,通过视觉3D卷积网络提取视频的视觉特征,同时利用音频2D卷积网络提取音频特征;这两种特征分别捕捉了唇形变化和语音信息;然后,本发明巧妙地运用门控循环神经网络,将视觉和音频特征进行深度融合,生成全局特征;最后,基于融合后的特征,通过音唇同步分类器进行识别。本申请能够有效捕捉音频与唇形之间的时序关系,大大提高了音唇同步识别的准确性,为视频质量评估和异常检测提供了可靠的技术支持。
技术关键词
视觉特征提取
音唇同步
同步识别方法
门控循环神经网络
音频特征数据
计算机可读指令
时序特征
视频帧
音频特征提取
图像裁剪方法
关键点
人脸检测算法
融合特征
系统为您推荐了相关专利信息
样本
区域候选网络
分类网络
特征融合网络
多角度
检测模型训练方法
图片
元素
视觉特征提取
预测类别