一种开放词汇细粒度手部动作检测方法、系统及产品

AITNT
正文
推荐专利
一种开放词汇细粒度手部动作检测方法、系统及产品
申请号:CN202510807139
申请日期:2025-06-17
公开号:CN120766347A
公开日期:2025-10-10
类型:发明专利
摘要
本发明公开了一种开放词汇细粒度手部动作检测方法、系统及产品,首先利用文本骨干网提取细粒度手部动作类别的文本细粒度特征;然后提取输入视频帧或图像的视觉细粒度特征;接着利用文本和视觉细粒度特征,生成全局跨模态视觉‑文本特征,进一步利用双向选择与融合机制,输出局部双向选择后的跨模态视觉‑文本细粒度特征,进一步与全局跨模态视觉‑文本特征按原提取位置相加后,与局部双向选择后的文本细粒度特征输入跨模态查询生成器,生成增强跨模态查询;最后通过跨模态解码器,输出手部动作的边界框及细粒度类别预测。本发明有效突出了最佳匹配的多模态细粒度特征,使模型在对新颖未见的手部动作实现有效泛化的同时,保持各类别间性能平衡。
技术关键词
动作检测方法 细粒度特征 跨模态 文本 注意力 动作检测模型 计算机程序指令 解码器 动作检测系统 矩阵 全局视觉特征 生成位置信息 融合图像特征 适配器 机制 前馈神经网络 预训练模型 处理器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号