一种实现遥感图像细粒度视觉感知的多模态大语言模型

AITNT
正文
推荐专利
一种实现遥感图像细粒度视觉感知的多模态大语言模型
申请号:CN202411112788
申请日期:2024-08-14
公开号:CN119027960A
公开日期:2024-11-26
类型:发明专利
摘要
本发明提供一种实现遥感图像细粒度视觉感知的多模态大语言模型,包括:共享视觉编码模块,含两个功能互补视觉编码器,分别接收进行下采样后不同分辨率图像进行编码,并按照通道维度连接得到集成的多尺度视觉特征图。同时,将视觉提示分别输入至两个功能互补的视觉编码器,得到编码后的视觉提示;模态对齐映射层,用于将多尺度特征图以及编码后的视觉提示转换到语言语义空间,得到映射后的视觉以及视觉提示;文本分词器模块,用于将文本指令转换为向量嵌入;大语言模型解码器,用于接收映射图像token、视觉提示token以及文本指令嵌入,生成模型响应序列。本发明为细粒度的多模态大语言模型在遥感领域的研究和应用提供了简单可行的办法。
技术关键词
大语言模型 注意力 解码器 图像视觉特征 文本 指令 卷积神经网络框架 编码算法 分辨率 矩阵 参数 自然场景 数据 序列 格式 通道
系统为您推荐了相关专利信息
1
基于智能AI模型进行智能导购的处理方法、装置及系统
实体 参数 对象 交易平台 意图
2
一种任务命令的处理方法、装置及设备
命令 基准 样本 编码器 大语言模型
3
人体姿态特征提取模型、方法、系统及姿态估计网络、方法、系统
人体姿态估计 姿态特征提取 人体关键点 残差模块 网络
4
一种商品细粒度检测与识别系统
位置检测模块 商品标签 识别系统 识别模块 细粒度分类
5
一种用于主动脉夹层快速筛查与分诊的智能方法与系统
相关性分析技术 主动脉 血压 监督机器学习 患者
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号