一种基于模型协同的多模态大模型遥感视觉问答方法

正文

推荐专利

申请号：CN202411546822

申请日期：2024-11-01

公开号：CN119294528A

公开日期：2025-01-10

类型：发明专利

摘要

本发明提出的是一种基于模型协同的多模态大模型遥感视觉问答方法，该方法包括：步骤1)准备视觉问答数据集并构造指令微调数据集；步骤2)形成若干个具有不同损失比的多模态遥感视觉问答轻量级预训练模型；步骤3)得到具有对比损失和生成损失的最佳权重比的多模态遥感视觉问答轻量级预训练模型；步骤4)形成多模态遥感视觉问答大模型；步骤5)利用具有对比损失和生成损失的最佳权重比的多模态遥感视觉问答轻量级预训练模型和多模态遥感视觉问答大模型分别得到对应的推理结果；步骤6)纠正多模态遥感视觉问答大模型的推理结果；本发明能缓解多模态遥感视觉问答大模型的幻觉问题的同时，又能够避免多个大模型协同推理带来的巨大算力负担。

技术关键词

预训练模型视觉问答方法多模态大语言模型文本编码器图像编码器数据融合特征样本指令解码图文解码器超参数生成答案多层感知机

一种基于模型协同的多模态大模型遥感视觉问答方法

站点导航

APP 下载