摘要
本发明公开了一种基于多模态的聋哑人手语识别方法、装置、设备及介质,方法包括:获取聋哑人手语的静态图像或动态视频;针对静态图像,采用基于ViT模型的静态手语识别网络,对聋哑人的静态手语进行分类识别;针对动态视频,采用动态手语识别网络进行分类识别;其中,动态手语识别网络首先对原始的连续手语视频进行关键帧提取;然后利用背景去除模块去除视频帧序列中的背景;再利用卷积、空间注意力和LSTM共同构建的ACN编码器,提取时空融合特征;最后通过结合时间注意力机制和LSTM构建ACN解码器,对时空融合特征进行解码学习。本发明有效解决了手语识别中的复杂背景干扰、冗余帧处理等问题,具有较高的识别精度和稳定性。
技术关键词
聋哑人手语
动态手语识别
静态手语
时空融合特征
识别方法
连续手语
高维特征向量
解码器
网络模块
视频帧
注意力机制
卷积模块
关键帧
图像
序列
多模态
编码器
嵌入位置编码