摘要
本发明属于遥感与计算机视觉交叉技术领域,具体涉及一种面向遥感多时相场景多任务解译的变化通用模型构建方法。包括:采用CNN编码器和Vi T编码器编码,用于输入的双时相图像生成双时相视觉token;采用LoRA技术在冻结的多模态大模型的基础上引入可学习参数用于实现遥感变化领域的视觉语言对齐,多模态大模型还用于对输入双时相图像以及文本指令,生成包含多模态信息的文本输出;添加视觉解码器用于对获得的双时相视觉token和获取的文本输出进行高维解码输出变化图;针对上述构建的变化通用模型,采用Adapter微调的方式添加可学习的参数,实现变化通用模型的多任务统一处理功能;基于文本生成损失和分割掩码损失持续训练,优化变化通用模型。
技术关键词
通用模型构建方法
多任务
编码器
视觉特征
文本
计算机视觉交叉技术
大语言模型
多模态信息
场景
注意力
参数
解码器
图像
多层次特征
跨模态
矩阵
上采样
系统为您推荐了相关专利信息
建筑外观
反馈优化方法
视觉特征
情绪特征
模型库
图像深度特征
视觉特征提取
文本编码器
数据
线索
文本分类方法
文本特征向量
警情文本数据
分类器模型
文本分类器