一种音唇同步识别方法、装置、计算机设备及存储介质

AITNT
正文
推荐专利
一种音唇同步识别方法、装置、计算机设备及存储介质
申请号:CN202411074615
申请日期:2024-08-06
公开号:CN119206561A
公开日期:2024-12-27
类型:发明专利
摘要
本申请实施例属于音视频图像处理技术领域,涉及一种音唇同步识别方法、装置、计算机设备及存储介质,该方法包括:首先,通过视觉3D卷积网络提取视频的视觉特征,同时利用音频2D卷积网络提取音频特征;这两种特征分别捕捉了唇形变化和语音信息;然后,本发明巧妙地运用门控循环神经网络,将视觉和音频特征进行深度融合,生成全局特征;最后,基于融合后的特征,通过音唇同步分类器进行识别。本申请能够有效捕捉音频与唇形之间的时序关系,大大提高了音唇同步识别的准确性,为视频质量评估和异常检测提供了可靠的技术支持。
技术关键词
视觉特征提取 音唇同步 同步识别方法 门控循环神经网络 音频特征数据 计算机可读指令 时序特征 视频帧 音频特征提取 图像裁剪方法 关键点 人脸检测算法 融合特征
系统为您推荐了相关专利信息
1
一种水生生物的风格迁移的图像识别方法及系统
病害特征 局部图像特征 图像识别方法 风格 生物
2
一种基于多角度优化的小样本目标检测方法和装置
样本 区域候选网络 分类网络 特征融合网络 多角度
3
一种基于多模态感知的轨迹预测方法及系统
轨迹预测方法 多模态 轨迹预测模型 复杂度 节点
4
一种基于图像的五元特征检测模型训练方法、系统及设备
检测模型训练方法 图片 元素 视觉特征提取 预测类别
5
基于多模态场景感知的直播内容实时推荐方法
推荐方法 动态场景 多模态 频谱特征 热力图
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号