摘要
本发明公开了一种基于空间关系的杆塔归集方法及其系统。该方法包括:生成普朗克坐标编码,将普朗克坐标编码与原始图像融合,形成多通道图像;对多通道图像进行特征提取,将原始图像的Patch编码与线性映射后的普朗克坐标编码相加,并进行预训练以提取高阶语义特征;从特征图中提取目标区域特征并融合位置信息;通过交替执行全局注意力与单图注意力对目标区域特征建模,以学习目标间关系并生成高级特征;基于高级特征计算目标区域相似度,并通过相似度判断目标区域归属,实现杆塔匹配与去重。本发明有效建模多视角图像中目标之间的关系,提高了在复杂场景下的目标匹配准确性,模型可推断被遮挡目标的潜在位置,弥补单视角盲区,单图信息完整性提升。
技术关键词
归集方法
杆塔
三维空间信息
多通道
图像
编码
坐标
关系建模
多视角
区域特征提取
注意力机制
语义特征提取
归集系统
特征提取网络
相机
视觉特征
建模方法
系统为您推荐了相关专利信息
微泡
图像生成器
超声成像方法
生成式网络
像素点
神经网络架构搜索
比特数
神经网络模型
精度
图像分类模型
网络训练方法
注意力机制
大语言模型
训练系统
电力
检索图像
局部图像特征
文本
图像增强
图像检索方法
定量分析方法
图像分割
机器学习方法
散射噪声
CT扫描