摘要
本申请涉及一种基于视觉语言大模型的施工现场隐患识别方法及系统。所述方法包括:获取实时采集的施工现场高处作业的图像数据;对图像数据进行预处理,得到待检测图像;将待检测图像输入到施工安全视觉语言模型中,得到隐患识别结果;隐患识别结果包括高处坠落安全隐患类型和规范自然语言图像字幕。采用本方法能够为施工现场安全管理提供了智能化的技术支持,通过对施工现场高处坠落隐患识别和生成规范化的图像字幕,有效降低高处坠落事故的发生率。
技术关键词
自然语言
施工现场
多任务联合训练
高处坠落隐患
视觉
术语
字幕
数据
矩阵
多尺度
适配器
文本编码器
图像编码器
识别方法
感知哈希算法
训练语言模型
同义词
场景结构
系统为您推荐了相关专利信息
模态分析
视频剪辑方法
多模态
视频剪辑装置
逻辑
特征提取模块
状态空间模型
网络
物体检测
损失函数设计
交通地理信息
坐标系
数据处理方法
坐标转换算法
预测交通流量
联合标定方法
红外响应材料
红外热成像仪
非线性映射关系
视觉相机