一种基于多模态CLIP视觉语言模型的场景异常检测方法

正文

推荐专利

申请号：CN202411912803

申请日期：2024-12-24

公开号：CN119832561A

公开日期：2025-04-15

类型：发明专利

摘要

本发明属于人工智能技术领域，具体的说是一种基于多模态CLIP视觉语言模型的场景异常检测方法，包括多层级特征的多专家适配器、图像文本特征对比和CLIP LoRA高效参数微调，多层级特征的多专家适配器:将CLIP应用到下游任务常见做法是在VIT骨干网络中引入额外的跨层CLIP‑Adapter,即在不同层间引入可训练的BottleNeck，并在BottleNeck上采样部分引入专家混合模型的多专家网络；通过在BottleNeck的上采样部分引入MoE多专家网络，对不同的场景以及场景异常分别建模，每个专家专门研究输入空间的一个子集，可以针对特定问题进行优化，提高处理特定问题的效率。

技术关键词

异常检测方法多层级特征多模态阶段文本网络适配器场景视觉焦点损失函数图像级标签人工智能技术嵌入特征像素代表参数矩阵做法

系统为您推荐了相关专利信息

一种基于行业知识图谱和强化学习的内容推荐方法和系统

内容推荐方法个性化广告强化学习环境构建行业知识图谱实体语义关系

一种领域本体的自动构建方法及系统

模糊集合隶属度函数自动构建方法模糊推理规则实体

基于细粒度对比学习的训练方法、装置和电子设备

波形特征信息文本数据大语言模型预训练模型

基于人工智能模拟控制参数的制造加工系统

材料残余应力基准面多模态参数刚度

一种融合自适应启发式与对称双向搜索的采样最优路径规划方法

路径规划方法启发式信息机器人路径规划技术采样点队列

一种基于多模态CLIP视觉语言模型的场景异常检测方法

站点导航

APP 下载