摘要
本申请提供了一种基于结构引导项的TOF图像目标检测模型训练方法,包括:对红外图像和深度图像进行预处理以形成多通道输入张量;将输入张量输入至目标检测模型,并通过模型中的结构感知注意力模块融合红外图像与深度图像的特征,生成中间特征图;将中间特征图输入至目标检测模型的后续网络层进行处理得到输出特征图,构建结构引导损失;将结构引导损失作为正则项与基础检测损失组合为总损失函数,并通过优化总损失函数来更新目标检测模型的参数直至收敛。本申请解决的技术问题是现有方法未能有效利用深度图像所提供的空间结构信息,这导致模型在光照变化大、背景干扰强或物体遮挡等复杂场景下容易出现误识别和定位不准确的问题。
技术关键词
检测模型训练方法
图像
检测损失
多尺度结构
边缘结构信息
输出特征
注意力
多尺度特征融合
多通道
空间结构信息
纹理特征
更新模型参数
跨模态
基础
超参数
查询特征
中间层
机制
上采样
系统为您推荐了相关专利信息
融合特征
航迹生成方法
知识蒸馏方法
一体化网络架构
模态特征
矫正模型
图像矫正方法
图像矫正装置
注意力
计算机程序产品
物流设备
动态关联模型
动态数据集
排放量
深度学习模型