摘要
本申请公开了一种模型训练的方法、装置及电子设备。其中,该方法包括:获取训练数据集,其中,训练数据集用于对预训练模型进行训练,训练数据集包括图像数据和对应的文本数据;将训练数据集依次输入预训练模型中的多个多层感知器网络进行训练,得到多个目标多层感知器网络,其中,上一个多层感知器网络的输出结果作为下一个多层感知器网络的输入;将多个目标多层感知器网络进行融合,得到融合网络;依据训练数据集对融合网络进行训练,得到目标融合网络,并依据目标融合网络确定目标预训练模型。本申请解决了相关技术中的视觉编码器模型在编码过程中忽略了许多细节信息,存在准确性差的技术问题。
技术关键词
多层感知器网络
预训练模型
数据
非易失性存储介质
损失函数优化
融合特征
存储程序指令
文本编码器
图像编码器
电子设备
阶段
标签
计算机程序产品
参数
模块
存储器