摘要
本发明公开了一种基于深度学习的多模态动态手势识别方法。通过双分支网络分别提取RGB图像和手部关键点特征:RGB分支采用ShuffleNetV2提取空间特征,结合GRU捕获时序特征;关键点分支基于改进的ST‑GCN建模时空关联。两分支特征经通道/空间融合后输入分类网络,并引入多尺度特征融合模块增强识别精度,同时优化浅层特征提取以提升小目标检测效果。针对左滑、右滑、上滑、下滑、抓取、握拳六类动态手势,通过分解卷积、帧压缩、通道重排合并等技术,在保持精度的前提下,将模型参数量压缩至8MB以下,并提升了推理速度,适用于AR眼镜、智能家居等各种嵌入式设备或者算力较低的场景。
技术关键词
动态手势识别方法
手部关键点
多尺度特征融合
特征提取网络
视频
浅层特征提取
通道
双分支网络
特征提取模型
数据
关节
双线性插值
嵌入式设备
分类网络
时序特征