摘要
本发明公开了一种文本监督对比学习的红外与可见光图像融合方法。包括:获取同一场景的红外图像、可见光图像及其文本描述,采用预处理与图像块划分策略,通过线性嵌入与交叉注意Mamba模块提取多模态图像特征;利用预训练文本编码器获取文本语义特征,通过图文特征对齐融合模块实现图像与文本特征的维度对齐与加权融合,生成融合图像。通过图文对比学习损失联合像素重建与红外强度保持损失进行端到端训练,有效提升融合图像的语义一致性与热目标保持能力。融合过程还包括图文匹配权重计算、特征加权调整及融合卷积操作。本发明具备语义引导能力强、融合效果优、热目标表达准确等优点,适用于多模态图像处理任务。
技术关键词
可见光图像
融合方法
滑动窗口
语义特征
交叉模块
图文
融合特征
像素
线性
文本编码器
输出特征
图像块
卷积模块
信息熵
文本特征加权
多模态