摘要
本发明公开了一种基于字幕感知预训练的多任务网络道路目标检测方法,包括两阶段训练:第一阶段通过图像编码器与字幕感知解码器的联合训练,利用自动驾驶场景图像及其对应的文本标注数据进行预训练,优化图像编码器。第二阶段基于预训练的图像编码器和多任务解码器头,使用包含目标检测、车道线检测与可行驶区域分割标注数据的训练集进行联合训练。该方法通过优化多任务损失函数,实现了多任务学习的协同提升,增强了图像目标检测的精度和鲁棒性。具体来说,目标检测通过边界框回归,车道线检测通过位置标定,可行驶区域通过图像分割实现。该方法可广泛应用于自动驾驶系统中的道路目标检测,提高了场景理解与决策精度。
技术关键词
图像编码器
解码器
字幕
卷积模块
网络
车道
采样模块
文本特征向量
检测损失
数据
检测头
多任务损失函数
传播算法
场景
自动驾驶系统
注意力
系统为您推荐了相关专利信息
齿轮传动系统
Kriging模型
子系统
有限元分析软件
多体动力学模型
人脸识别方法
空间金字塔池化
高频特征
特征金字塔网络
人脸识别模型
损伤评价方法
深度卷积神经网络
评价图像
混凝土
大温差
视网膜血管图像
分支
注意力
卷积模块
眼底视网膜