基于交叉注意力融合的视觉语音识别方法及系统

正文

推荐专利

申请号：CN202410729452

申请日期：2024-06-06

公开号：CN118675526A

公开日期：2024-09-20

类型：发明专利

摘要

本发明涉及一种基于交叉注意力融合的视觉语音识别方法及系统，属于计算机交互技术领域。该方法包括以下步骤：采集和标注视频数据和音频数据；对视频数据进行预处理，提取出嘴部区域的图像帧和相应的面部标志点；使用深度学习模型分别提取图像帧和面部标志点的特征；通过交叉注意力机制融合图像帧和面部标志点的特征；将融合后的特征输入分类器，识别视频中的语音内容。本发明能够有效整合图像帧和面部标志点两种视觉特征，充分利用两种模态之间的互补关系，提升唇读系统的精度和鲁棒性。针对唇语识别需要处理视频中的时序信息，捕捉唇部运动的动态变化的问题，引入时间卷积网络作为序列解码器，能够捕捉视频序列中唇部运动的动态时序变化。

技术关键词

视觉语音识别方法视觉特征交叉注意力机制面部视频深度学习模型时间卷积网络图像融合特征计算机交互技术序列分类器多层卷积网络数据关键点唇读系统多头注意力机制语音识别系统

基于交叉注意力融合的视觉语音识别方法及系统

站点导航

APP 下载