摘要
本申请提供了一种基于复合视觉编码的遥感大模型性能提升方法和装置,涉及遥感图像大语言模型技术领域。该方法基于开源的视觉通用语言模型重新改写网络结构,加入用于提取局部细节和捕捉全局语义的复合视觉编码ConvToMe层,ConvToMe层通过ConvNeXt层提取局部细节,结合ToMe ViT层捕捉全局语义,得到性能提升的遥感大模型,通过复合的视觉编码达到同时保留全局语境和局部细节,提升鲁棒性的同时,提升模型精度的效果。
技术关键词
性能提升方法
遥感图像数据
局部细节特征
矩阵
多模态
文本特征向量
筛选系统
视觉特征
语义特征
跨模态
瓶颈结构
性能提升装置
模态特征
编码向量
令牌
坐标
图像块
系统为您推荐了相关专利信息
分布式边缘
智慧农业大棚
智能农业大棚
多模态数据融合
智能控制模块
图像获取方法
偏振成像系统
字典
矩阵分解算法
电子设备
反演方法
卫星影像数据
理论
反演模型
反射率数据
混合神经网络模型
知识点
文件校验方法
电子
分类规则