基于遥感影像与长文本的跨模态预训练方法以及装置

正文

推荐专利

申请号：CN202510347552

申请日期：2025-03-24

公开号：CN120375146A

公开日期：2025-07-25

类型：发明专利

摘要

本发明提供一种基于遥感影像与长文本的跨模态预训练方法以及装置，应用于人工智能领域，上述方法包括：将长文本词向量与短文本词向量输入至文本编码器，得到长文本特征张量与短文本特征张量；将遥感影像切片输入至图像编码器，得到图像特征张量；对图像特征张量进行降维，得到粗粒度图像特征；确定长文本特征张量与图像特征张量之间的长文本相似度，以及短文本特征张量与粗粒度图像特征之间的短文本相似度；根据交叉熵损失函数确定遥感影像切片与文本数据之间的总损失；基于总损失进行反向传播，得到预训练的文本编码器与预训练的图像编码器；通过本发明能够训练一个同时理解长文本和短文本的模型，提高遥感影像与文本的细粒度对齐能力。

技术关键词

预训练方法文本编码器图像编码器影像大语言模型切片关键词非暂态计算机可读存储介质数据成分分析图文处理器标签计算机程序产品训练装置编码模块

系统为您推荐了相关专利信息

基于产业大脑的上下文自适应过滤与答案生成方法

多任务学习网络多任务学习模型答案生成方法 LORA技术大语言模型

一种基于近红外光谱对豆科植物固氮的评估方法

豆科植物固氮数据同位素质谱仪多元回归分析影像

一种大语言模型幻觉检测方法及装置

实体大语言模型搜索算法文本模块

一种基于知识记忆的增强式跨文档智能检索方法及系统

智能检索方法三元组语义图谱大语言模型

用于车辆环境可视化的基于深度学习的环境建模

虚拟现实内容处理器协作内容大语言模型对象

基于遥感影像与长文本的跨模态预训练方法以及装置

站点导航

APP 下载