摘要
本申请公开了一种数据处理方法和电子设备,涉及计算机技术领域,该方法包括:获取输入文本和输入图像;生成输入文本对应的文本标记;确定输入图像的图像类别,并根据输入图像的图像类别确定激活的视觉特征提取模型;利用激活的视觉特征提取模型对输入图像进行视觉特征提取,并基于激活的视觉特征提取模型输出的视觉特征生成输入图像对应的图像标记;将文本标记和图像标记输入预训练语言模型中,以便预训练语言模型生成输入文本和输入图像对应的回答。本申请提高了预训练语言模型对不同类型图像数据的处理性能。
技术关键词
视觉特征提取
数据处理方法
图像类别
图像分类模型
图像块
自然场景
文本
预训练语言模型
标记
变换器
实例分割
多模态特征
标签
跨模态
序列特征