摘要
本发明提供一种基于遥感影像与长文本的跨模态预训练方法以及装置,应用于人工智能领域,上述方法包括:将长文本词向量与短文本词向量输入至文本编码器,得到长文本特征张量与短文本特征张量;将遥感影像切片输入至图像编码器,得到图像特征张量;对图像特征张量进行降维,得到粗粒度图像特征;确定长文本特征张量与图像特征张量之间的长文本相似度,以及短文本特征张量与粗粒度图像特征之间的短文本相似度;根据交叉熵损失函数确定遥感影像切片与文本数据之间的总损失;基于总损失进行反向传播,得到预训练的文本编码器与预训练的图像编码器;通过本发明能够训练一个同时理解长文本和短文本的模型,提高遥感影像与文本的细粒度对齐能力。
技术关键词
预训练方法
文本编码器
图像编码器
影像
大语言模型
切片
关键词
非暂态计算机可读存储介质
数据
成分分析
图文
处理器
标签
计算机程序产品
训练装置
编码模块
系统为您推荐了相关专利信息
多任务学习网络
多任务学习模型
答案生成方法
LORA技术
大语言模型
豆科植物固氮
数据
同位素质谱仪
多元回归分析
影像