摘要
本发明属于模式识别与人工智能,具体提供基于自适应分辨率的多模态大语言模型优化方法及系统,包括:将多模态问答数据划分为目标任务训练集和目标任务测试集;利用重新采集的目标场景下的图像数据以及配对的文本指令,构建分辨率选择训练集;构建具有两阶段图像编码机制的多模态大语言模型,并利用目标任务训练集以及分辨率选择训练集训练多模态大语言模型,获得目标模型;在目标任务测试集上评估目标模型的预测准确率,完成对多模态大语言模型的优化。本发明技术方案通过两阶段图像编码机制,实现自适应选择最佳分辨率进行推理,从而显著提升了模型的视觉感知能力。
技术关键词
大语言模型
分辨率
图像编码
多模态
训练集
线性分类器
文本
令牌
多层感知机
解码模块
编码模块
两阶段
数据
Softmax函数
视觉
图像特征提取
指令