一种基于多模态注意力融合与Transformer模型的唇语识别方法

正文

推荐专利

申请号：CN202510650667

申请日期：2025-05-20

公开号：CN120564260A

公开日期：2025-08-29

类型：发明专利

摘要

本申请提供了一种基于多模态注意力融合与Transformer模型的唇语识别方法，涉及人工智能与计算机视觉技术领域，包括：对收集的视频流和音频流进行预处理，得到唇部ROI区域图像序列和音频特征，对所述唇部ROI区域图像序列进行标签标定，生成带有时间戳的唇语文本标签，将所述带有时间戳的唇语文本标签作为监督信息，以训练基于Transformer的端到端模型；基于所述唇部ROI区域图像序列，利用自适应残差注意力模块和层级特征提取机制构建的深度网络架构对唇部图像进行多级特征提取，得到唇部特征，基于所述唇部特征和所述音频特征，采用基于注意力机制的策略进行融合，得到多模态特征；基于所述多模态特征，使用训练好的基于Transformer的端到端模型进行唇语序列的识别，以得到唇语识别结果文本。

技术关键词

唇部特征音频特征多模态特征注意力机制多模态注意力唇语识别序列视频流图像融合特征编码器网络架构解码器标签文本识别方法字符

系统为您推荐了相关专利信息

一种基于AI识别的农业智能驱鸟方法以及系统

长短期记忆网络神经网络模型农业智能图像特征信息驱鸟方法

一种用于转动部件退化预测的多模态数据建模方法及装置

数据建模方法信号特征装备机械部件信号处理算法经验模态分解算法

基于人工智能的极地无人仓储货物识别与盘点方法和系统

三维数字地图盘点方法感兴趣实例分割数据

一种基于电子技术课程的教学管理方法及系统

电子技术课程教学管理方法个性化学习路径学生节点

基于深度学习的眼底影像识别方法、系统及设备

影像识别方法影像识别系统便携式手持终端图像识别模块眼底图像特征

一种基于多模态注意力融合与Transformer模型的唇语识别方法

站点导航

APP 下载