摘要
本发明公开了一种基于视觉语言模型的建筑表观病害检测与评估方法,输入模块接收建筑表面的高分辨率图像和相关文本描述,并将其转化为可供后续处理的格式,以确保模型充分获取视觉和语言信息。编码器模块提取建筑图像的多尺度特征和文本描述中的语义特征,从而增强特征表达能力。双分支多模态融合器有效整合视觉特征和文本特征,以提升缺陷检测的表现。先验经验学习模块通过存储历史经验和生成动态软标签来优化模型性能。多任务训练机制则通过同时学习多个相关任务,提升模型的综合性能和鲁棒性,并分两个阶段进行训练,确保有效特征提取和进一步优化。提升了病害检测方法的效率和准确性,适于工业上大规模使用与推广。
技术关键词
多尺度特征
注意力
编码器模块
建筑
视觉特征
文本编码器
语义特征
多模态特征
图像多尺度
分支
融合器
融合语义
文字特征
输出模块
输入模块
多层感知器
系统为您推荐了相关专利信息
BIM建模方法
分区模型
建筑
结合物联网技术
云管理平台
带电作业机器人
定位系统
特征提取模块
多尺度信息
特征提取单元
模式识别方法
评价指标体系
一维卷积神经网络
轮廓系数
协方差矩阵