摘要
本发明提供一种基于多模态关键语义的无监督骨架行为识别方法及系统,本发明方法包括:采集预训练的多模态骨架视频序列,进行预处理,构建骨架数据集;利用多模态大语言模型对骨架数据集中的每一类动作图像进行时序理解,并生成关键描述,通过语义编码器生成文本描述特征簇;通过混合增强策略和时空图卷积ST‑GCN模型捕捉骨架数据集中图片的骨架动作特征簇;利用GLIP语义对齐策略,将文本描述特征簇和骨架动作特征簇映射至同一个表征空间,将不同动作进行相似性比较,利用反向传播训练骨架编码器,实现骨架行为识别。
技术关键词
动作特征
识别方法
GCN模型
大语言模型
语义
文本特征向量
混合骨架
图像采集单元
特征提取单元
节点
输出特征
人体骨架
编码器
数据
策略
序列
多模态特征融合
邻居