摘要
本申请公开了一种视觉语言模型的训练方法、图像识别方法、设备及产品,涉及机器学习技术领域,视觉语言模型的训练方法包括:基于获取的视觉样本和文本数据,获取视觉特征和文本特征,其中文本数据包括可学习提示,之后,将视觉特征进行特征解耦,得到不变视觉特征与伪视觉特征,最后,根据不变视觉特征、伪视觉特征和文本特征之间的至少一个损失函数优化特征解耦过程中涉及到的可学习参数和所述可学习提示中涉及到的参数,以完成训练。本申请实施例能够将文本特征拉向不变视觉特征,将文本特征推离伪视觉特征,进而减轻在提示调整中的伪相关性,提高视觉语言模型的鲁棒性和图像识别的准确性。
技术关键词
视觉特征
图像识别方法
损失函数优化
文本
计算机程序产品
参数
电子设备
机器学习技术
存储器
鲁棒性
数据
处理器
线性
样本
模块
系统为您推荐了相关专利信息
SCR脱硝催化剂
多维度评估模型
烟气参数
脱硝系统
性能评估方法
电信息
车辆
计算机程序产品
智能驾驶技术
电子设备
BERT模型
刻画方法
子空间特征提取
爬虫爬取
词向量训练
图纸
格式地图
房间
Delaunay三角网
节点