一种基于文本监督的第一视角场景解析方法

AITNT
正文
推荐专利
一种基于文本监督的第一视角场景解析方法
申请号:CN202411617566
申请日期:2024-11-13
公开号:CN119296103B
公开日期:2025-10-24
类型:发明专利
摘要
该发明公开了一种基于文本监督的第一视角场景解析方法,属于图像处理领域,特别是第一视角视觉场景解析领域。本发明提出了跨模态提示学习模块,引入视觉与文本可学习提示向量,针对在第三人称数据上预训练的视觉语言模型进行微调,使其能够应用于具有复杂目标关系的第一视角图像;此外,本发明还提出了表征知识迁移模块,将视觉语言预训练模型的特征级知识蒸馏到微调后的第一视角编码器中,提高第一视角模型的跨模态关联能力,从而基于类别文本对第一视角场景中的目标进行准确分割。本发明创新地提出了一种基于文本监督的第一视角场景解析方法,利用第一视角图像的类别文本生成对应的分割伪掩码以缓解像素级标注稀缺的问题。
技术关键词
场景解析方法 视角 文本编码器 教师 视觉特征 代表 跨模态 文本特征向量 语义分割模型 全局平均池化 图像 预训练模型 映射方法 蒸馏 阶段 多标签
系统为您推荐了相关专利信息
1
基于多模态感知与动态耦合建模的桩体贯入度识别方法
识别方法 激光测距数据 视觉特征点 动态 剔除噪声
2
基于知识蒸馏与多模态动态融合的自适应问答系统及方法
问答系统 蒸馏 动态 问答方法 协议
3
一种大视角高清监控摄像机
高清监控视频采集模块 圆盘 高清镜头 口袋 高清监控镜头
4
车辆底盘磕碰预警方法、装置、计算机设备和存储介质
深度神经网络模型 车辆底盘 预警方法 图像获取装置 障碍物
5
基于多模态大语言模型的工地安监智能体系统
智能体系统 大语言模型 安监 工地 视觉特征编码
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号