摘要
本发明提供一种实现遥感图像细粒度视觉感知的多模态大语言模型,包括:共享视觉编码模块,含两个功能互补视觉编码器,分别接收进行下采样后不同分辨率图像进行编码,并按照通道维度连接得到集成的多尺度视觉特征图。同时,将视觉提示分别输入至两个功能互补的视觉编码器,得到编码后的视觉提示;模态对齐映射层,用于将多尺度特征图以及编码后的视觉提示转换到语言语义空间,得到映射后的视觉以及视觉提示;文本分词器模块,用于将文本指令转换为向量嵌入;大语言模型解码器,用于接收映射图像token、视觉提示token以及文本指令嵌入,生成模型响应序列。本发明为细粒度的多模态大语言模型在遥感领域的研究和应用提供了简单可行的办法。
技术关键词
大语言模型
注意力
解码器
图像视觉特征
文本
指令
卷积神经网络框架
编码算法
分辨率
矩阵
参数
自然场景
数据
序列
格式
通道
系统为您推荐了相关专利信息
人体姿态估计
姿态特征提取
人体关键点
残差模块
网络
位置检测模块
商品标签
识别系统
识别模块
细粒度分类