基于多模态的聋哑人手语识别方法、装置、设备和介质

AITNT
正文
推荐专利
基于多模态的聋哑人手语识别方法、装置、设备和介质
申请号:CN202510448261
申请日期:2025-04-10
公开号:CN120431626A
公开日期:2025-08-05
类型:发明专利
摘要
本发明公开了一种基于多模态的聋哑人手语识别方法、装置、设备及介质,方法包括:获取聋哑人手语的静态图像或动态视频;针对静态图像,采用基于ViT模型的静态手语识别网络,对聋哑人的静态手语进行分类识别;针对动态视频,采用动态手语识别网络进行分类识别;其中,动态手语识别网络首先对原始的连续手语视频进行关键帧提取;然后利用背景去除模块去除视频帧序列中的背景;再利用卷积、空间注意力和LSTM共同构建的ACN编码器,提取时空融合特征;最后通过结合时间注意力机制和LSTM构建ACN解码器,对时空融合特征进行解码学习。本发明有效解决了手语识别中的复杂背景干扰、冗余帧处理等问题,具有较高的识别精度和稳定性。
技术关键词
聋哑人手语 动态手语识别 静态手语 时空融合特征 识别方法 连续手语 高维特征向量 解码器 网络模块 视频帧 注意力机制 卷积模块 关键帧 图像 序列 多模态 编码器 嵌入位置编码
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号