摘要
本发明涉及图像分类技术领域,具体为一种基于视觉语言大模型的图像分类方法及系统,其中图像分类方法包括如下步骤:1、获取多张原始图像,并构建图像分类网络;2、从多张原始图像选择一张原始图像输入到图像分类网络中,最终得到类别预测结果;3、利用类别预测结果与真实类别构建损失函数;4、循环2和3,最小化损失函数,直至损失函数收敛或者迭代次数达到设定次数,并更新图像分类网络的权重,得到训练后的图像分类网络;5、将训练后的图像分类网络部署到设备端上,利用设备端对图像进行分类,得到分类结果。本发明解决了传统单模态分类方法中全局信息捕获不足、视觉与语言信息融合效率低的问题,实现了更高的分类精度和任务泛化能力。
技术关键词
图像分类网络
图像分类方法
视觉特征
适配器
投影模块
图像特征提取
融合特征
编码模块
多层感知机
语义向量
图像分类系统
图像分类技术
计算机设备
文本编码器
采集设备
系统为您推荐了相关专利信息
精子形态分析方法
紧凑型双线性池化
混合损失函数
形态学分析方法
形态检测方法
前馈神经网络
多模态
图像编码器
转换文本
视觉特征
网络谣言检测方法
大语言模型
跨模态
集成特征
多头注意力机制
导航方法
生成图像特征
彩色图像
深度图
相机模型