一种基于文本监督的第一视角场景解析方法

正文

推荐专利

一种基于文本监督的第一视角场景解析方法

申请号：CN202411617566

申请日期：2024-11-13

公开号：CN119296103B

公开日期：2025-10-24

类型：发明专利

摘要

该发明公开了一种基于文本监督的第一视角场景解析方法，属于图像处理领域，特别是第一视角视觉场景解析领域。本发明提出了跨模态提示学习模块，引入视觉与文本可学习提示向量，针对在第三人称数据上预训练的视觉语言模型进行微调，使其能够应用于具有复杂目标关系的第一视角图像；此外，本发明还提出了表征知识迁移模块，将视觉语言预训练模型的特征级知识蒸馏到微调后的第一视角编码器中，提高第一视角模型的跨模态关联能力，从而基于类别文本对第一视角场景中的目标进行准确分割。本发明创新地提出了一种基于文本监督的第一视角场景解析方法，利用第一视角图像的类别文本生成对应的分割伪掩码以缓解像素级标注稀缺的问题。

技术关键词

场景解析方法视角文本编码器教师视觉特征代表跨模态文本特征向量语义分割模型全局平均池化图像预训练模型映射方法蒸馏阶段多标签

系统为您推荐了相关专利信息

基于多模态感知与动态耦合建模的桩体贯入度识别方法

识别方法激光测距数据视觉特征点动态剔除噪声

基于知识蒸馏与多模态动态融合的自适应问答系统及方法

问答系统蒸馏动态问答方法协议

一种大视角高清监控摄像机

高清监控视频采集模块圆盘高清镜头口袋高清监控镜头

车辆底盘磕碰预警方法、装置、计算机设备和存储介质

深度神经网络模型车辆底盘预警方法图像获取装置障碍物

基于多模态大语言模型的工地安监智能体系统

智能体系统大语言模型安监工地视觉特征编码

一种基于文本监督的第一视角场景解析方法

站点导航

APP 下载