基于交叉注意力融合的视觉语音识别方法及系统

AITNT
正文
推荐专利
基于交叉注意力融合的视觉语音识别方法及系统
申请号:CN202410729452
申请日期:2024-06-06
公开号:CN118675526A
公开日期:2024-09-20
类型:发明专利
摘要
本发明涉及一种基于交叉注意力融合的视觉语音识别方法及系统,属于计算机交互技术领域。该方法包括以下步骤:采集和标注视频数据和音频数据;对视频数据进行预处理,提取出嘴部区域的图像帧和相应的面部标志点;使用深度学习模型分别提取图像帧和面部标志点的特征;通过交叉注意力机制融合图像帧和面部标志点的特征;将融合后的特征输入分类器,识别视频中的语音内容。本发明能够有效整合图像帧和面部标志点两种视觉特征,充分利用两种模态之间的互补关系,提升唇读系统的精度和鲁棒性。针对唇语识别需要处理视频中的时序信息,捕捉唇部运动的动态变化的问题,引入时间卷积网络作为序列解码器,能够捕捉视频序列中唇部运动的动态时序变化。
技术关键词
视觉语音识别方法 视觉特征 交叉注意力机制 面部 视频 深度学习模型 时间卷积网络 图像 融合特征 计算机交互技术 序列 分类器 多层卷积网络 数据 关键点 唇读系统 多头注意力机制 语音识别系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号