摘要
本文提供了一种半监督的零样本语义分割的方法,所提出的方法共包含4个神经网络模型,分别是ViT(Vision Transformer)编码器、预训练图像编码器、像素级解码器和Transformer解码器。同时,该方法由两个模块组成:自监督生成掩码模块和语义分割解码器的预训练模块。包括步骤:数据准备,进行图像序列化以将输入图像X转换为特征嵌入;掩码特征提取,向第一层Transformer输入数据,每个Transformer层由多头注意力、层归一化、前馈网络层构成;接着将特征再而分别输入到Transformer解码器和像素级解码器中,对各输出特征做矩阵乘积来进行N个掩码的预测并完成匹配,得到分割结果。此外,解码器也需要学习具体的图像语义信息。该发明使用了自监督对比学习将正样本和负样本的特征进行对比,增加正样本之间的相似度,降低负样本和正样本之间的相似度。
技术关键词
解码器
注意力
语义分割方法
样本
输出特征
矩阵
图像编码器
神经网络模型
池化特征
学习特征
像素
模块
数据
非线性
通道
参数
系统为您推荐了相关专利信息
自动化特征工程
辅助诊断系统
构建机器学习模型
医学检验数据
样本
剩余寿命预测方法
剩余寿命预测模型
旋转机械
剩余使用寿命
代表
HSV颜色空间
可见光图像
加热器件
加热检测系统
通道
医疗健康
结构化医疗数据
联合优化算法
预测系统
静态特征