摘要
本申请提供了一种基于多模态注意力融合与Transformer模型的唇语识别方法,涉及人工智能与计算机视觉技术领域,包括:对收集的视频流和音频流进行预处理,得到唇部ROI区域图像序列和音频特征,对所述唇部ROI区域图像序列进行标签标定,生成带有时间戳的唇语文本标签,将所述带有时间戳的唇语文本标签作为监督信息,以训练基于Transformer的端到端模型;基于所述唇部ROI区域图像序列,利用自适应残差注意力模块和层级特征提取机制构建的深度网络架构对唇部图像进行多级特征提取,得到唇部特征,基于所述唇部特征和所述音频特征,采用基于注意力机制的策略进行融合,得到多模态特征;基于所述多模态特征,使用训练好的基于Transformer的端到端模型进行唇语序列的识别,以得到唇语识别结果文本。
技术关键词
唇部特征
音频特征
多模态特征
注意力机制
多模态注意力
唇语识别
序列
视频流
图像
融合特征
编码器
网络架构
解码器
标签文本
识别方法
字符
系统为您推荐了相关专利信息
长短期记忆网络
神经网络模型
农业智能
图像特征信息
驱鸟方法
数据建模方法
信号特征
装备机械部件
信号处理算法
经验模态分解算法
电子技术课程
教学管理方法
个性化学习路径
学生
节点
影像识别方法
影像识别系统
便携式手持终端
图像识别模块
眼底图像特征