摘要
本发明公开了一种基于频率调谐的非自然图像理解方法及系统,本发明的方法包括三个关键步骤:首先获取非自然图像构成非自然图像数据集并进行预处理,再将预处理后的非自然图像数据集划分为对齐数据集和指令微调数据集两部分;接着在对齐数据集和指令微调数据集上通过三个阶段训练多模态大语言模型;最后将待进行图像理解的非自然图像输入到训练好的多模态大语言模型,得到对非自然图像的理解结果。实验结果表明,本发明在分类、检索、描述生成和问答等任务上均优于现有技术,显著提升了非自然图像理解的准确性和效率。
技术关键词
图像理解方法
频率调谐
大语言模型
文本
多模态
图像理解系统
梯度下降优化算法
生成对输入
表格
离散小波变换
指令
前馈神经网络
模型训练模块
多分辨率
数据获取模块
级联
注意力