一种基于视觉语言大模型的图像分类方法及系统

正文

推荐专利

申请号：CN202510313238

申请日期：2025-03-17

公开号：CN120164034A

公开日期：2025-06-17

类型：发明专利

摘要

本发明涉及图像分类技术领域，具体为一种基于视觉语言大模型的图像分类方法及系统，其中图像分类方法包括如下步骤：1、获取多张原始图像，并构建图像分类网络；2、从多张原始图像选择一张原始图像输入到图像分类网络中，最终得到类别预测结果；3、利用类别预测结果与真实类别构建损失函数；4、循环2和3，最小化损失函数，直至损失函数收敛或者迭代次数达到设定次数，并更新图像分类网络的权重，得到训练后的图像分类网络；5、将训练后的图像分类网络部署到设备端上，利用设备端对图像进行分类，得到分类结果。本发明解决了传统单模态分类方法中全局信息捕获不足、视觉与语言信息融合效率低的问题，实现了更高的分类精度和任务泛化能力。

技术关键词

图像分类网络图像分类方法视觉特征适配器投影模块图像特征提取融合特征编码模块多层感知机语义向量图像分类系统图像分类技术计算机设备文本编码器采集设备

系统为您推荐了相关专利信息

一种基于深度学习的二阶段精子形态学分析方法

精子形态分析方法紧凑型双线性池化混合损失函数形态学分析方法形态检测方法

问答信息的生成及多模态大模型训练方法和装置

前馈神经网络多模态图像编码器转换文本视觉特征

一种基于条码的物品分拣指示方法及装置

条码指示标志分拣台图像采集模块标识

一种基于大语言模型特征增强的多模态网络谣言检测方法

网络谣言检测方法大语言模型跨模态集成特征多头注意力机制

基于占据网络感知的端到端视觉语言导航方法

导航方法生成图像特征彩色图像深度图相机模型

一种基于视觉语言大模型的图像分类方法及系统

站点导航

APP 下载