摘要
本发明提出一种基于GPA_VLPD全局自适应的跨模态单阶段行人检测方法,利用预训练好的视觉语言模型CLIP的Text Encoder将类别文本映射为文本特征;通过CLIP的Image Encoder获得伪标签;然后将训练集和文本特征输入到GPA‑VLPD特征提取模块,得到适用于检测行人的GPA‑VLPD模型;最后将训练完成的模型对图像进行推理检测;如果检测到行人,则框选并输出。
技术关键词
行人检测方法
特征提取模块
注意力
文本特征向量
阶段
通道
网络整体架构
检测行人
非暂态计算机可读存储介质
语义
检测头
标签文件
视觉
训练集
像素
处理器
图像
无监督
系统为您推荐了相关专利信息
全生命周期管理方法
管理策略
数据分类模型
云数据中心
数据分析模型
氧化镓晶片
管理终端
频谱特征
识别方法
控制电子显微镜
状态评估方法
神经网络模型
多任务
电信号
融合特征
浓度估算方法
黑碳气溶胶
机器学习模型
超参数
集成机器学习
医学图像分割方法
编码器解码器
热点
高层语义特征
特征提取模块