摘要
本发明公开了一种基于模态融合和自进化微调的信息驱动目标分割方法,首先,引入了一个不需要预训练的模态融合适配器,集成到预训练模型的原始架构中,促进视觉语言编码器之间的交互。模态融合适配器有两个定制模块:(1)空间先验模块,用于捕获中间层特征图的局部语义(空间先验);(2)多模态注意力模块,促进视觉语言模态之间的信息交互。其次,设计了一个轻量级的任务特定解码器用于信息驱动的目标分割,以进一步对齐视觉和语言特征。本发明可以无缝集成到任何预训练的器视觉‑语言模型中增强并与它们的中间特征交互,并能够在只更新1.61%到3.38%的参数的情况下,实现与现有完全微调方法相当的性能。
技术关键词
融合视觉特征
分割方法
适配器
图像编码器
代表
融合多模态特征
阶段
文本编码器
对齐模块
多模态注意力
交叉注意力机制
语言编码器
融合特征
系统为您推荐了相关专利信息
数据清洗方法
集群
数据项
大规模文本数据
停用词表
递归神经网络
图像分割方法
局部特征信息
时序特征
卷积神经网络提取
医学图像分割方法
半监督学习
医学图像分割模型
标记
上采样