摘要
本发明提供一种多模态模型表征优化的开放词汇分割方法及系统,属于计算机视觉技术领域,获取待分割的图像数据;利用预先训练好的多模态模型,对获取的图像进行处理,得到分割结果。本发明更好地优化了多模态任务中的视觉‑文本表征,使得同类视觉‑文本表征空间进行有效对齐;提出掩码敏感型损失在参数微调过程中约束分类得分和掩码质量保持一致,从而赋予视觉编码器局部感知能力,提升了模型在细粒度下游任务中的效果;引入了原预训练特征作为表征补偿,保证了在优化过程中预训练视觉‑语言模型的零样本能力;将文本表征和视觉表征进行交互,使得文本表征可以对于不同输入图像进行自适应增强,可有效提升开放词汇分割中视觉‑文本的对齐属性。
技术关键词
分割方法
视觉特征
文本
多模态
图像
存储器
处理器
计算机视觉技术
生成多尺度
阶段
电子设备
分割系统
训练特征
网格
样本
计算机设备
参数
指令
注意力
系统为您推荐了相关专利信息
拉普拉斯金字塔
曝光补偿方法
编解码器
架空输电线路
解码器单元
融合特征
语义注意力
特征生成方法
加权特征
车载摄像头
缺陷检测方法
沥青路面数据
卷积神经网络模型
计算机装置
计算机程序产品