摘要
本发明公开了一种基于语义指导多模态融合的小样本动作识别方法,本发明涉及计算机视觉技术领域。该基于语义指导多模态融合的小样本动作识别方法,通过利用大语言模型生成覆盖各种动作类别的丰富而全面的文本知识,保证提取小样本动作识别任务的语义信息的全面性,通过对提取的具有区分性的语义信息与未知类别样本的视觉信息进行匹配度量来实现在文本分支中的初步分类,并且,在视觉分支设计了一个语义引导的视觉交互模块,促进了语义和视觉信息的有效整合,提高了样本中特征表示的质量,能够更加及时理解只有少量样本的新类别。
技术关键词
动作识别方法
视觉特征
样本
多模态
语义
原型
时序
计算机视觉技术
度量
文本编码器
深度神经网络
大语言模型
数据
标签
优化器
超参数
图片
分支