一种基于多模态注意力融合与Transformer模型的唇语识别方法

AITNT
正文
推荐专利
一种基于多模态注意力融合与Transformer模型的唇语识别方法
申请号:CN202510650667
申请日期:2025-05-20
公开号:CN120564260A
公开日期:2025-08-29
类型:发明专利
摘要
本申请提供了一种基于多模态注意力融合与Transformer模型的唇语识别方法,涉及人工智能与计算机视觉技术领域,包括:对收集的视频流和音频流进行预处理,得到唇部ROI区域图像序列和音频特征,对所述唇部ROI区域图像序列进行标签标定,生成带有时间戳的唇语文本标签,将所述带有时间戳的唇语文本标签作为监督信息,以训练基于Transformer的端到端模型;基于所述唇部ROI区域图像序列,利用自适应残差注意力模块和层级特征提取机制构建的深度网络架构对唇部图像进行多级特征提取,得到唇部特征,基于所述唇部特征和所述音频特征,采用基于注意力机制的策略进行融合,得到多模态特征;基于所述多模态特征,使用训练好的基于Transformer的端到端模型进行唇语序列的识别,以得到唇语识别结果文本。
技术关键词
唇部特征 音频特征 多模态特征 注意力机制 多模态注意力 唇语识别 序列 视频流 图像 融合特征 编码器 网络架构 解码器 标签文本 识别方法 字符
系统为您推荐了相关专利信息
1
一种基于AI识别的农业智能驱鸟方法以及系统
长短期记忆网络 神经网络模型 农业智能 图像特征信息 驱鸟方法
2
一种用于转动部件退化预测的多模态数据建模方法及装置
数据建模方法 信号特征 装备机械部件 信号处理算法 经验模态分解算法
3
基于人工智能的极地无人仓储货物识别与盘点方法和系统
三维数字地图 盘点方法 感兴趣 实例分割 数据
4
一种基于电子技术课程的教学管理方法及系统
电子技术课程 教学管理方法 个性化学习路径 学生 节点
5
基于深度学习的眼底影像识别方法、系统及设备
影像识别方法 影像识别系统 便携式手持终端 图像识别模块 眼底图像特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号