摘要
本发明公开了一种可伸缩思维链引导的少样本连续教学行为识别方法,涉及图像处理领域。通过思维链引导大语言模型(LLMs)来挖掘行为标签中不同层次的语义知识,并将其凝练为(主,谓,宾)结构的三元组知识,解决了现有的预训练视觉语言模型对动词的理解能力较弱的问题,实现对行为的准确理解和识别。相比于常见的少样本连续学习方法,我们的方法冻结了预训练视觉语言模型的主干网络,只通过提示学习进行模型的训练,相比于传统的主干网络表征适配调优,我们的方法训练参数很少,极大降低了计算复杂度。本发明在教室场景数据集上进行少样本连续教学行为识别任务,与其他先进方法相比,本发明取得了最优的识别结果。
技术关键词
文本编码器
视觉特征
识别方法
大语言模型
文本特征向量
教室场景
样本
语义
三元组
连续学习方法
教学
标签
网络表征
层级
结构组件
图像编码
系统为您推荐了相关专利信息
电车
识别方法
图像采集系统
图像分析系统
车载蜂鸣器
损伤识别方法
传感器阵列
墙体结构
检测墙体
信号
图像识别方法
注意力机制
输出特征
特征重构层
卷积模块