多模态模型表征优化的开放词汇分割方法及系统

正文

推荐专利

申请号：CN202410957456

申请日期：2024-07-17

公开号：CN118823350A

公开日期：2024-10-22

类型：发明专利

摘要

本发明提供一种多模态模型表征优化的开放词汇分割方法及系统，属于计算机视觉技术领域，获取待分割的图像数据；利用预先训练好的多模态模型，对获取的图像进行处理，得到分割结果。本发明更好地优化了多模态任务中的视觉‑文本表征，使得同类视觉‑文本表征空间进行有效对齐；提出掩码敏感型损失在参数微调过程中约束分类得分和掩码质量保持一致，从而赋予视觉编码器局部感知能力，提升了模型在细粒度下游任务中的效果；引入了原预训练特征作为表征补偿，保证了在优化过程中预训练视觉‑语言模型的零样本能力；将文本表征和视觉表征进行交互，使得文本表征可以对于不同输入图像进行自适应增强，可有效提升开放词汇分割中视觉‑文本的对齐属性。

技术关键词

分割方法视觉特征文本多模态图像存储器处理器计算机视觉技术生成多尺度阶段电子设备分割系统训练特征网格样本计算机设备参数指令注意力

系统为您推荐了相关专利信息

一种基于雕塑、壁画的古乐器的复原方法

复原方法乐器计算机辅助设计软件壁画雕塑

架空输电线路监控图像自动曝光补偿方法、装置及介质

拉普拉斯金字塔曝光补偿方法编解码器架空输电线路解码器单元

一种基于用户面部分析算法的辅助妆容方法及其系统

图像采集传感器智能家具基础显示屏算法

鸟瞰图特征生成方法、装置及电子设备

融合特征语义注意力特征生成方法加权特征车载摄像头

一种基于改进YOLO模块的沥青路面缺陷检测方法

缺陷检测方法沥青路面数据卷积神经网络模型计算机装置计算机程序产品

多模态模型表征优化的开放词汇分割方法及系统

站点导航

APP 下载