一种基于字幕感知预训练的多任务网络道路目标检测方法

AITNT
正文
推荐专利
一种基于字幕感知预训练的多任务网络道路目标检测方法
申请号:CN202510261927
申请日期:2025-03-06
公开号:CN120198871A
公开日期:2025-06-24
类型:发明专利
摘要
本发明公开了一种基于字幕感知预训练的多任务网络道路目标检测方法,包括两阶段训练:第一阶段通过图像编码器与字幕感知解码器的联合训练,利用自动驾驶场景图像及其对应的文本标注数据进行预训练,优化图像编码器。第二阶段基于预训练的图像编码器和多任务解码器头,使用包含目标检测、车道线检测与可行驶区域分割标注数据的训练集进行联合训练。该方法通过优化多任务损失函数,实现了多任务学习的协同提升,增强了图像目标检测的精度和鲁棒性。具体来说,目标检测通过边界框回归,车道线检测通过位置标定,可行驶区域通过图像分割实现。该方法可广泛应用于自动驾驶系统中的道路目标检测,提高了场景理解与决策精度。
技术关键词
图像编码器 解码器 字幕 卷积模块 网络 车道 采样模块 文本特征向量 检测损失 数据 检测头 多任务损失函数 传播算法 场景 自动驾驶系统 注意力
系统为您推荐了相关专利信息
1
一种基于系统划分模型修正下的齿轮传动系统振动响应快速预测方法
齿轮传动系统 Kriging模型 子系统 有限元分析软件 多体动力学模型
2
基于机器视觉的电站设备表计识别与状态评估机器人系统
评估机器人 电站设备 表计 拓扑网络 邻居
3
一种基于动态加权小波注意力的人脸识别方法及系统
人脸识别方法 空间金字塔池化 高频特征 特征金字塔网络 人脸识别模型
4
隧道大温差段混凝土冻融损伤评价方法、装置、设备及介质
损伤评价方法 深度卷积神经网络 评价图像 混凝土 大温差
5
基于边缘和细节共导拓扑感知的视网膜血管图像分割方法
视网膜血管图像 分支 注意力 卷积模块 眼底视网膜
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号