摘要
该发明公开了一种基于文本监督的第一视角场景解析方法,属于图像处理领域,特别是第一视角视觉场景解析领域。本发明提出了跨模态提示学习模块,引入视觉与文本可学习提示向量,针对在第三人称数据上预训练的视觉语言模型进行微调,使其能够应用于具有复杂目标关系的第一视角图像;此外,本发明还提出了表征知识迁移模块,将视觉语言预训练模型的特征级知识蒸馏到微调后的第一视角编码器中,提高第一视角模型的跨模态关联能力,从而基于类别文本对第一视角场景中的目标进行准确分割。本发明创新地提出了一种基于文本监督的第一视角场景解析方法,利用第一视角图像的类别文本生成对应的分割伪掩码以缓解像素级标注稀缺的问题。
技术关键词
场景解析方法
视角
文本编码器
教师
视觉特征
代表
跨模态
文本特征向量
语义分割模型
全局平均池化
图像
预训练模型
映射方法
蒸馏
阶段
多标签
系统为您推荐了相关专利信息
识别方法
激光测距数据
视觉特征点
动态
剔除噪声
高清监控视频采集模块
圆盘
高清镜头
口袋
高清监控镜头
深度神经网络模型
车辆底盘
预警方法
图像获取装置
障碍物