摘要
本申请提供一种多模态模型训练方法、装置及电子设备,该方法包括:获取训练图像集中N个类别的类别文本信息;获取多模态模型中文本编码器基于N个类别的类别文本信息得到的N个第一文本特征向量。根据N个第一文本特征向量确定N个第一文本特征向量在球面坐标系下的极角以及辅助角;根据N个第一文本特征向量的极角中的最大值对N个第一文本特征向量的极角进行调大;根据N个第一文本特征向量、辅助角以及调整后的极角,确定在笛卡尔坐标系下N个第二文本特征向量;基于N个第二文本特征向量以及训练图像集,对多模态模型中的图像编码器进行训练,得到训练后的多模态模型,训练后的多模态模型用于图像分类。以提升多训练后的模态模型性能。
技术关键词
文本特征向量
图像特征向量
图像编码器
笛卡尔坐标系
多模态
文本编码器
模型训练方法
电子设备
处理器
球面
模型训练装置
分类场景
可读存储介质
计算机程序产品
矩阵
模块