摘要
本发明属于人工智能技术领域,具体的说是一种基于多模态CLIP视觉语言模型的场景异常检测方法,包括多层级特征的多专家适配器、图像文本特征对比和CLIP LoRA高效参数微调,多层级特征的多专家适配器:将CLIP应用到下游任务常见做法是在VIT骨干网络中引入额外的跨层CLIP‑Adapter,即在不同层间引入可训练的BottleNeck,并在BottleNeck上采样部分引入专家混合模型的多专家网络;通过在BottleNeck的上采样部分引入MoE多专家网络,对不同的场景以及场景异常分别建模,每个专家专门研究输入空间的一个子集,可以针对特定问题进行优化,提高处理特定问题的效率。
技术关键词
异常检测方法
多层级特征
多模态
阶段
文本
网络
适配器
场景
视觉
焦点损失函数
图像级标签
人工智能技术
嵌入特征
像素
代表
参数
矩阵
做法
系统为您推荐了相关专利信息
内容推荐方法
个性化广告
强化学习环境
构建行业知识图谱
实体语义关系
模糊集合
隶属度函数
自动构建方法
模糊推理规则
实体
路径规划方法
启发式信息
机器人路径规划技术
采样点
队列