摘要
本申请公开了一种基于多模态模型的城市设施异常检测方法、检测装置、电子设备及计算机程序产品。该检测方法基于已训练的异常检测模型实现。异常检测模型在颈部网络设置TgVL模块,TgVL模块通过VFE分支增强图像特征,并通过TgV分支在文本引导下学习图像特征的权重,通过该权重对增强后的图像特征作注意力,可促进两种模态的特征融合,有效解决小样本学习困难的问题。基于此,结合TVF检测头,文本语义信息和图像的空间特征的多模态融合可提升对复杂场景的理解,更加准确高效地确定检测结果。此外,在骨干网络和/或TgVL模块中设置的AGLPU模块,可利用LPU分支和GPU分支来提取局部特征及全局特征,并对二者进行自适应加权融合,进一步提升城市设施异常的检测精度。
技术关键词
融合特征
图像
分支
文本
卷积特征
异常检测方法
多模态
设施
计算机程序产品
网络
异常检测装置
电子设备
瓶颈结构
检测头
特征提取模块
处理器
注意力
存储器
线性
系统为您推荐了相关专利信息
网页去重方法
URL特征
SimHash算法
节点
文本
红外图像条纹
噪声
卷积滤波器
卷积模块
竖直分量
大语言模型
法律知识图谱
知识本体
逻辑
生成知识图谱
时间序列特征
故障预测方法
注意力
语义
轻量化卷积神经网络