基于自适应分辨率的多模态大语言模型优化方法及系统

正文

推荐专利

申请号：CN202511395465

申请日期：2025-09-28

公开号：CN120876876A

公开日期：2025-10-31

类型：发明专利

摘要

本发明属于模式识别与人工智能，具体提供基于自适应分辨率的多模态大语言模型优化方法及系统，包括：将多模态问答数据划分为目标任务训练集和目标任务测试集；利用重新采集的目标场景下的图像数据以及配对的文本指令，构建分辨率选择训练集；构建具有两阶段图像编码机制的多模态大语言模型，并利用目标任务训练集以及分辨率选择训练集训练多模态大语言模型，获得目标模型；在目标任务测试集上评估目标模型的预测准确率，完成对多模态大语言模型的优化。本发明技术方案通过两阶段图像编码机制，实现自适应选择最佳分辨率进行推理，从而显著提升了模型的视觉感知能力。

技术关键词

大语言模型分辨率图像编码多模态训练集线性分类器文本令牌多层感知机解码模块编码模块两阶段数据 Softmax函数视觉图像特征提取指令