摘要
本发明公开了一种基于语义驱动Transformer模型的弱监督目标定位方法,包括以下步骤:S1、对待检测的图片进行预处理,用于将待检测的图片转换为适合神经网络处理的格式;S2、将预处理后待检测的图片及其对应的图片级别的标签送入神经网络;所述神经网络包括Transformer主干网络、语义内核集成模块SKI和语义增强适配模块SBA;S3、神经网络对图片进行处理,在训练过程中输出待检测图片对应每一个类别的概率数值;S4、在测试过程中输出待检测图片预测的框的坐标、类别和得分;本发明通过使注意力图更加专注于前景区域,在弱监督环境下实现了更精确的、语义感知的目标定位,从而提高了模型的解释精度和相关性。
技术关键词
语义
图片
定位方法
集成模块
预训练模型
文本编码器
图像编码器
内核
标签
热力图
对象
网络
分类器
注意力
度函数
核心
样本
系统为您推荐了相关专利信息
交互系统
语音识别模块
文本
对照数据库
自动语音识别
分析预警系统
模型训练模块
可视化模块
风险预测模型
多源异构数据
拟合系统
基准面
三维点云数据
语义标签
特征提取模块
瓦片地图
标注方法
地图瓦片
图片
计算机制图技术
工程协同设计方法
BIM技术
多源异构数据
高风险
支护结构