摘要
本申请公开了一种基于多模态大模型的城市事件检测方法、装置及存储介质,涉及计算机应用技术领域。该方法包括:获取公开数据集和城市事件的事件数据集;构建包括视觉编码器、线性投影层和大语言模型在内的多模态识别模型;建立对多模态识别模型的阶段训练方式,并基于公开数据集与事件数据集对多模态识别模型分阶段进行训练;将待测数据输入训练后的多模态识别模型,得到事件识别结果。本申请实施例实现了在城市事件检测过程中减少多模态识别模型数量,提高多模态识别模型迁移学习能力和对新场景的泛化能力、节约多模态识别模型训练时间和资源,使得多模态识别模型的维护和升级过程较为简便的技术效果。
技术关键词
多模态
事件检测方法
视觉特征
事件识别
文本
大语言模型
非易失性计算机可读存储介质
线性
识别模型训练
生成图像数据
开源数据库
服务器模块
模型训练模块
存储计算机程序
标记
数据获取模块
摄像设备
尺寸