摘要
本发明公开了一种基于层次化提示与方向性线索的零样本指称图像分割方法。首先,通过层次化提示掩码生成网络获取输入图像中所有对象实例的掩码;基于方向性线索提取并融合综合视觉特征和焦点视觉特征,得到综合‑焦点视觉特征。然后,利用预训练模型BLIP2生成标题文本和负面表达文本,使用CLIP文本编码器提取文本特征;针对输入文本T,提取并融合综合文本特征和焦点文本特征,得到综合‑焦点文本特征。最后,通过预训练模型CLIP计算图像I与文本T之间的余弦相似度,利用空间整流器将掩码中心作为位置信息,选择匹配分数最高的掩码。本发明在遮挡和复杂场景中也能生成精确的实例掩码,解决了CLIP对空间位置信息不敏感的问题,表现出卓越性能。
技术关键词
图像分割方法
视觉特征
文本编码器
线索
焦点
负面文本
预训练模型
样本
sigmoid函数
对象
整流器
标签
网络
矩阵
检测器
参数
核心
系统为您推荐了相关专利信息
矿用挖掘机
编码向量
状态识别系统
液压
频域特征提取