摘要
本申请提供一种图像语义分割方法、装置、电子设备和可读介质。该方法包括:将待预测图像和待预测文本输入到包含文本编码器和图像编码器的多模态模型中进行特征提取,分别得到图像令牌和文本令牌;在文本令牌中嵌入信任令牌,信任令牌用于标识待预测文本中的已知类别标签和未知类别标签;通过信任学习器将匹配的图像令牌以及嵌入信任令牌后的文本令牌进行特征融合,得到融合特征;通过语义分割网络对融合特征进行语义分割,得到结果掩膜;通过结果掩膜对待预测图像中的各个像素分配类别标签,得到待遇测图像的图像分割结果。该方法能够提升模型的适应性与识别能力,避免因未知类别导致的遗漏或标注错误。
技术关键词
令牌
语义分割网络
图像语义分割方法
融合特征
掩膜
图像语义分割装置
文本编码器
图像编码器
预测图像编码
图像分割
图像嵌入
标签
基准
注意力
矩阵
学习器
线性