一种基于视觉语言大模型的图像分类方法及系统

AITNT
正文
推荐专利
一种基于视觉语言大模型的图像分类方法及系统
申请号:CN202510313238
申请日期:2025-03-17
公开号:CN120164034A
公开日期:2025-06-17
类型:发明专利
摘要
本发明涉及图像分类技术领域,具体为一种基于视觉语言大模型的图像分类方法及系统,其中图像分类方法包括如下步骤:1、获取多张原始图像,并构建图像分类网络;2、从多张原始图像选择一张原始图像输入到图像分类网络中,最终得到类别预测结果;3、利用类别预测结果与真实类别构建损失函数;4、循环2和3,最小化损失函数,直至损失函数收敛或者迭代次数达到设定次数,并更新图像分类网络的权重,得到训练后的图像分类网络;5、将训练后的图像分类网络部署到设备端上,利用设备端对图像进行分类,得到分类结果。本发明解决了传统单模态分类方法中全局信息捕获不足、视觉与语言信息融合效率低的问题,实现了更高的分类精度和任务泛化能力。
技术关键词
图像分类网络 图像分类方法 视觉特征 适配器 投影模块 图像特征提取 融合特征 编码模块 多层感知机 语义向量 图像分类系统 图像分类技术 计算机设备 文本编码器 采集设备
系统为您推荐了相关专利信息
1
一种基于深度学习的二阶段精子形态学分析方法
精子形态分析方法 紧凑型双线性池化 混合损失函数 形态学分析方法 形态检测方法
2
问答信息的生成及多模态大模型训练方法和装置
前馈神经网络 多模态 图像编码器 转换文本 视觉特征
3
一种基于条码的物品分拣指示方法及装置
条码 指示标志 分拣台 图像采集模块 标识
4
一种基于大语言模型特征增强的多模态网络谣言检测方法
网络谣言检测方法 大语言模型 跨模态 集成特征 多头注意力机制
5
基于占据网络感知的端到端视觉语言导航方法
导航方法 生成图像特征 彩色图像 深度图 相机模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号