摘要
本申请公开了一种融合视觉搜索和多模态大模型的光伏发电站火灾预警方法,涉及火灾预警领域,该方法利用基于多模态大模型搭建的烟雾目标识别模型对待监测图像帧进行初步识别定位得到烟雾目标定位框、置信度以及烟雾目标搜索提示热图,在烟雾目标定位框的置信度未达到置信度阈值时,进一步利用视觉搜索策略基于烟雾目标搜索提示热图进行主动搜索,引入主动搜索机制、视觉工作记忆以及动态调整策略,通过模拟人类对烟雾目标的识别机制,能够充分利用烟雾目标识别模型的世界知识和上下文理解能力,使得该方法能够在无需训练的环境下直接进行推理,且对烟雾目标有较高的识别定位准确率,有效实现光伏发电站火灾早期预警,降低实现难度。
技术关键词
光伏发电站
火灾预警方法
烟雾
指纹特征
置信度阈值
文本
图像编码器
融合视觉
多模态
定位框
样本
KNN算法
解码器结构
编码模块
线索