摘要
一种轻量级唇语识别方法与装置,该方法获取待识别原始视频;将获取到的所述原始视频,通过人脸跟踪检测、人脸特征点检测技术进行数据预处理,得到唇部视频序列及所述唇部视频序列的压缩表示;对得到的所述唇部视频序列数据利用数据增强算法扩大训练数据集;将增强后的所述训练数据集利用3DConv+2DResnet卷积神经网络对唇动视频序列进行特征提取;把对唇动视频序列进行特征提取得到的特征向量利用Conformer时序建模网络进行序列建模,得到唇语识别模型;利用分类网络对经过序列建模得到的所述唇语识别模型进行解码视觉语音,得到所述待识别视频对应的语言文字;利用模型压缩算法对所述唇语识别模型结构进行轻量化处理。本发明提升唇语识别性能,满足实际应用需求。
技术关键词
唇语识别方法
人脸跟踪检测
人脸特征点检测
序列
分类网络
人脸关键点
压缩算法
数据
编码向量
残差网络
正弦余弦函数
面部关键特征
时空特征信息
知识蒸馏技术
视频采集单元
多头注意力机制