一种基于多模态CLIP视觉语言模型的场景异常检测方法

AITNT
正文
推荐专利
一种基于多模态CLIP视觉语言模型的场景异常检测方法
申请号:CN202411912803
申请日期:2024-12-24
公开号:CN119832561A
公开日期:2025-04-15
类型:发明专利
摘要
本发明属于人工智能技术领域,具体的说是一种基于多模态CLIP视觉语言模型的场景异常检测方法,包括多层级特征的多专家适配器、图像文本特征对比和CLIP LoRA高效参数微调,多层级特征的多专家适配器:将CLIP应用到下游任务常见做法是在VIT骨干网络中引入额外的跨层CLIP‑Adapter,即在不同层间引入可训练的BottleNeck,并在BottleNeck上采样部分引入专家混合模型的多专家网络;通过在BottleNeck的上采样部分引入MoE多专家网络,对不同的场景以及场景异常分别建模,每个专家专门研究输入空间的一个子集,可以针对特定问题进行优化,提高处理特定问题的效率。
技术关键词
异常检测方法 多层级特征 多模态 阶段 文本 网络 适配器 场景 视觉 焦点损失函数 图像级标签 人工智能技术 嵌入特征 像素 代表 参数 矩阵 做法
系统为您推荐了相关专利信息
1
一种基于行业知识图谱和强化学习的内容推荐方法和系统
内容推荐方法 个性化广告 强化学习环境 构建行业知识图谱 实体语义关系
2
一种领域本体的自动构建方法及系统
模糊集合 隶属度函数 自动构建方法 模糊推理规则 实体
3
基于细粒度对比学习的训练方法、装置和电子设备
波形特征信息 文本 数据 大语言模型 预训练模型
4
基于人工智能模拟控制参数的制造加工系统
材料残余应力 基准面 多模态 参数 刚度
5
一种融合自适应启发式与对称双向搜索的采样最优路径规划方法
路径规划方法 启发式信息 机器人路径规划技术 采样点 队列
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号