摘要
一种基于多粒度跨模态对比学习的连续手语识别方法,首先充分挖潜手语视频与对应手语文本之间的隐性语义映射关系;接着利用多粒度跨模态对比机制去缓解冗余帧和语义无关标识词对跨模态对齐的潜在影响,通过粗粒度视频‑句子对比与细粒度帧‑词对比策略,从全局和局部角度对视觉与文本模态的特征进行有效对齐,通过跨粒度视频‑词对比和跨粒度帧‑句子对比策略来缓解冗余帧和语义无关标识词带来的语义干扰;最后利用视觉编码器中获得的视觉嵌入,通过解码器获得手语文本句子,作为预测的连续手语识别结果。本发明充分挖潜手语视频与对应手语文本之间的隐性语义映射关系,增强了手语模型对视觉上下文的语义理解,提高了手语识别的适用性和准确性。
技术关键词
连续手语识别方法
视频
跨模态
Softmax函数
一维卷积神经网络
卷积神经网络提取
序列特征
语义特征
视觉
解码器
文本编码器
标签
冗余
策略
标识
时序特征
系统为您推荐了相关专利信息
架构设计方法
融合视觉
轻量级深度学习
数据中心
智能调度算法
音乐数据生成方法
人脸特征数据
人工智能模型
心理健康
生命体征数据
智能构建方法
深度学习模型
声音活动检测
卷积神经网络算法
校验模块