摘要
本发明公开了一种基于异构骨骼的开放词汇动作识别方法与系统,方法包括:构建异构开放词汇骨骼数据集;统一异构开放词汇骨骼数据集中骨架表示,通过建立最大关节数和成员数来定义统一的空间结构;构建基于Transformer架构的骨骼运动编码器模型,包括特征嵌入、时空编码和用于跨模态对齐的投影层,通过投影层的三个并行投影网络将时空编码输出的全局时间特征、全局空间特征和全局视觉特征,映射到与来自预训练语言模型的文本嵌入对齐的语义空间;基于包括全局实例对齐,流特定对齐和细粒度对齐的多粒度运动‑文本对齐策略构建训练损失,对运动编码器模型进行训练。在具有异构骨架数据的流行基准上进行的广泛实验证明了所提出的方法的有效性和泛化能力。
技术关键词
动作识别方法
运动编码器
全局视觉特征
异构
预训练语言模型
时间序列特征
文本
空间结构
关节
语义
跨模态
动作识别系统
数据
多模态
训练语料库
多标签
分类基准