摘要
本申请公开了一种唇语识别方法、装置、设备、介质及产品,涉及机器视觉和自然语言处理交叉领域,该方法包括获取待识别的原始视频,初始化文本序列,对原始视频进行切割,得到多个帧图像,提取每个帧图像的帧内特征及帧间特征。根据全部帧图像的帧间特征,得到视频特征。根据视频特征以及文本序列,采用唇语识别模型,得到唇语识别结果。唇语识别模型为预先根据训练样本集搭建的神经网络多模态融合模型。本申请通过获取每个帧图像的帧内特征和帧间特征,得到视频特征,并进一步通过将文本序列以及视频特征进行多模态特征融合,提高了模型的特征表现能力和区分度,并进一步提高了唇语识别的准确性。
技术关键词
唇语识别方法
文本
图像
训练样本集
序列
标签
深度学习算法
编码向量
强化特征
多模态特征融合
视频特征提取
交叉注意力机制
字符
系统为您推荐了相关专利信息
无功补偿装置故障
自动预警方法
故障案例库
设备故障预警
综合故障诊断
色度参数
智能调配方法
辣椒油树脂
麻辣风味
偏差
广义Hough变换
参数空间搜索
识别方法
路面
非暂态计算机可读存储介质