摘要
本发明提出的是一种基于模型协同的多模态大模型遥感视觉问答方法,该方法包括:步骤1)准备视觉问答数据集并构造指令微调数据集;步骤2)形成若干个具有不同损失比的多模态遥感视觉问答轻量级预训练模型;步骤3)得到具有对比损失和生成损失的最佳权重比的多模态遥感视觉问答轻量级预训练模型;步骤4)形成多模态遥感视觉问答大模型;步骤5)利用具有对比损失和生成损失的最佳权重比的多模态遥感视觉问答轻量级预训练模型和多模态遥感视觉问答大模型分别得到对应的推理结果;步骤6)纠正多模态遥感视觉问答大模型的推理结果;本发明能缓解多模态遥感视觉问答大模型的幻觉问题的同时,又能够避免多个大模型协同推理带来的巨大算力负担。
技术关键词
预训练模型
视觉问答方法
多模态
大语言模型
文本编码器
图像编码器
数据
融合特征
样本
指令
解码图文
解码器
超参数
生成答案
多层感知机