基于多模态的聋哑人手语识别方法、装置、设备和介质

正文

推荐专利

申请号：CN202510448261

申请日期：2025-04-10

公开号：CN120431626A

公开日期：2025-08-05

类型：发明专利

摘要

本发明公开了一种基于多模态的聋哑人手语识别方法、装置、设备及介质，方法包括：获取聋哑人手语的静态图像或动态视频；针对静态图像，采用基于ViT模型的静态手语识别网络，对聋哑人的静态手语进行分类识别；针对动态视频，采用动态手语识别网络进行分类识别；其中，动态手语识别网络首先对原始的连续手语视频进行关键帧提取；然后利用背景去除模块去除视频帧序列中的背景；再利用卷积、空间注意力和LSTM共同构建的ACN编码器，提取时空融合特征；最后通过结合时间注意力机制和LSTM构建ACN解码器，对时空融合特征进行解码学习。本发明有效解决了手语识别中的复杂背景干扰、冗余帧处理等问题，具有较高的识别精度和稳定性。

技术关键词

聋哑人手语动态手语识别静态手语时空融合特征识别方法连续手语高维特征向量解码器网络模块视频帧注意力机制卷积模块关键帧图像序列多模态编码器嵌入位置编码

基于多模态的聋哑人手语识别方法、装置、设备和介质

站点导航

APP 下载