摘要
本发明涉及一种基于改进视觉大模型的城市异常事件识别方法,其包括如下步骤:构建包含N个图像以及与每一图像对应的文本描述的图像数据集;将Grounding DINO模型的图像主干替换为DVT框架,采用语义增强语言模型作为Grounding DINO模型的文本主干,以及在Grounding DINO的跨模态融合模块中引入动态注意力机制;对改进的Grounding DINO模型进行参数调节;以及,利用改进的Grounding DINO模型输出城市异常事件识别结果。本发明通过优化Grounding DINO模型的主干网络和在跨模态融合模块中引入动态注意力机制,使得模型能够更准确地识别各种城市异常事件。
技术关键词
异常事件
识别方法
样本
图像
文本
参数
交叉注意力机制
数据分布
表达式
标签
网络
分类器
语义
随机噪声
动态
视觉
优化器
框架
系统为您推荐了相关专利信息
抑制镜面反射
双目相机标定
对比度
双边滤波器
多级特征
训练图像识别模型
对象
图像识别方法
图像识别系统
监测系统
机器学习模型
文档生成方法
模式
处理单元
文档生成装置
DMS摄像头模组
双轴旋转机构
旋转支架
阻尼调节装置
旋转轴