一种基于复合视觉编码的遥感大模型性能提升方法和装置

正文

推荐专利

申请号：CN202511512511

申请日期：2025-10-22

公开号：CN120997529B

公开日期：2025-12-26

类型：发明专利

摘要

本申请提供了一种基于复合视觉编码的遥感大模型性能提升方法和装置，涉及遥感图像大语言模型技术领域。该方法基于开源的视觉通用语言模型重新改写网络结构，加入用于提取局部细节和捕捉全局语义的复合视觉编码ConvToMe层，ConvToMe层通过ConvNeXt层提取局部细节，结合ToMe ViT层捕捉全局语义，得到性能提升的遥感大模型，通过复合的视觉编码达到同时保留全局语境和局部细节，提升鲁棒性的同时，提升模型精度的效果。

技术关键词

性能提升方法遥感图像数据局部细节特征矩阵多模态文本特征向量筛选系统视觉特征语义特征跨模态瓶颈结构性能提升装置模态特征编码向量令牌坐标图像块

一种基于复合视觉编码的遥感大模型性能提升方法和装置

站点导航

APP 下载