视觉语言模型的训练方法、图像识别方法、设备及产品

正文

推荐专利

申请号：CN202510304205

申请日期：2025-03-14

公开号：CN120375115A

公开日期：2025-07-25

类型：发明专利

摘要

本申请公开了一种视觉语言模型的训练方法、图像识别方法、设备及产品，涉及机器学习技术领域，视觉语言模型的训练方法包括：基于获取的视觉样本和文本数据，获取视觉特征和文本特征，其中文本数据包括可学习提示，之后，将视觉特征进行特征解耦，得到不变视觉特征与伪视觉特征，最后，根据不变视觉特征、伪视觉特征和文本特征之间的至少一个损失函数优化特征解耦过程中涉及到的可学习参数和所述可学习提示中涉及到的参数，以完成训练。本申请实施例能够将文本特征拉向不变视觉特征，将文本特征推离伪视觉特征，进而减轻在提示调整中的伪相关性，提高视觉语言模型的鲁棒性和图像识别的准确性。

技术关键词

视觉特征图像识别方法损失函数优化文本计算机程序产品参数电子设备机器学习技术存储器鲁棒性数据处理器线性样本模块

系统为您推荐了相关专利信息

图像迁移方法、装置、设备、存储介质和程序产品

图像迁移方法偏移特征计算机程序产品像素

SCR脱硝催化剂性能评估方法及装置

SCR脱硝催化剂多维度评估模型烟气参数脱硝系统性能评估方法

车外温度确定方法、电子设备及程序产品

电信息车辆计算机程序产品智能驾驶技术电子设备

一种基于自适应子空间选择算法的含违法行为网站刻画方法和系统

BERT模型刻画方法子空间特征提取爬虫爬取词向量训练

一种CAD图纸解析与空间数据转换的方法

图纸格式地图房间 Delaunay三角网节点

视觉语言模型的训练方法、图像识别方法、设备及产品

站点导航

APP 下载