摘要
本发明公开了基于知识引导的伪装目标检测方法和系统,实现了对伪装目标的高质量分割并降低对训练数据的依赖。本发明方法利用多模态大语言模型为伪装图像生成知识描述,通过高度抽象和概括的知识表示,增强模型对语义目标和伪装场景的理解能力。其中,多层次知识聚合模块聚合多层次文本描述中的一致性信息,形成多层次的语义知识矢量,抑制错误描述带来的噪声干扰以及过度丰富的文本描述使得模型特征失焦。为了将语义知识整合到视觉基础模型中,知识引导的语义增强适配器模块通过冻结基础模型原有参数,在低秩空间内运用语义知识引导调整图像视觉特征表征,在集成伪装图像的语义知识的同时保持视觉模型的通用知识和分割能力。
技术关键词
多层次
大语言模型
语义
输出特征
多层感知机
适配器
多模态
文本编码器
数据
图像视觉特征
注意力
模块
纹理
训练集
样本
存储程序指令
生成知识
融合全局
系统为您推荐了相关专利信息
冰箱控制方法
语义
因子权重
冰箱控制装置
上存储计算机程序
指针仪表
特征信息提取
指针式仪表读数
多尺度
子模块