一种实现遥感图像细粒度视觉感知的多模态大语言模型

正文

推荐专利

申请号：CN202411112788

申请日期：2024-08-14

公开号：CN119027960A

公开日期：2024-11-26

类型：发明专利

摘要

本发明提供一种实现遥感图像细粒度视觉感知的多模态大语言模型，包括：共享视觉编码模块，含两个功能互补视觉编码器，分别接收进行下采样后不同分辨率图像进行编码，并按照通道维度连接得到集成的多尺度视觉特征图。同时，将视觉提示分别输入至两个功能互补的视觉编码器，得到编码后的视觉提示；模态对齐映射层，用于将多尺度特征图以及编码后的视觉提示转换到语言语义空间，得到映射后的视觉以及视觉提示；文本分词器模块，用于将文本指令转换为向量嵌入；大语言模型解码器，用于接收映射图像token、视觉提示token以及文本指令嵌入，生成模型响应序列。本发明为细粒度的多模态大语言模型在遥感领域的研究和应用提供了简单可行的办法。

技术关键词

大语言模型注意力解码器图像视觉特征文本指令卷积神经网络框架编码算法分辨率矩阵参数自然场景数据序列格式通道

系统为您推荐了相关专利信息

基于智能AI模型进行智能导购的处理方法、装置及系统

实体参数对象交易平台意图

一种任务命令的处理方法、装置及设备

命令基准样本编码器大语言模型

人体姿态特征提取模型、方法、系统及姿态估计网络、方法、系统

人体姿态估计姿态特征提取人体关键点残差模块网络

一种商品细粒度检测与识别系统

位置检测模块商品标签识别系统识别模块细粒度分类

一种用于主动脉夹层快速筛查与分诊的智能方法与系统

相关性分析技术主动脉血压监督机器学习患者

一种实现遥感图像细粒度视觉感知的多模态大语言模型

站点导航

APP 下载