摘要
本发明涉及遥感跨模态检索技术领域,具体涉及一种基于多分支的遥感图像文本跨模态检索方法及系统,该方法包括:采集遥感图像及对应的文本描述,并进行预处理,依次生成图像数据和文本数据;基于多分支视觉语言模型和多模态共享适配器构建训练模型,分别得到图像特征向量和文本特征向量;将图像特征向量和文本特征向量输入至多模态共享适配器中确定图像特征和文本特征;对图像特征和文本特征进行对比性学习,并计算自适应三元损失,优化训练模型参数得到跨模态检索网络模型;通过跨模态检索网络模型实现检索;即增加视觉分支,完善多模态共享适配器,对齐不同模态,使整个模型能够利用复杂信息进行检索,实现不同模态间信息的高效整合。
技术关键词
跨模态检索方法
共享适配器
文本特征向量
图像特征向量
多分支
生成图像数据
跨模态检索技术
网络
视觉
三元组
多模态
检索系统
线性
参数
注意力