摘要
本申请公开了一种图文多模态模型的知识蒸馏方法、图像处理方法及设备,方法包括:将样本图像输入至多模态模型的第一图像编码器,得到第一图像特征,将提示文本输入至多模态模型的文本编码器,得到文本特征;将样本图像输入至图像处理模型的第二图像编码器,得到第二图像特征;计算第一图像特征和第二图像特征之间的图像对齐损失;以及,计算文本特征和第二图像特征之间的图文对齐损失;基于图像对齐损失和图文对齐损失训练图像处理模型,可以分别从两个不同模态维度对图像处理模型的第二图像编码器进行蒸馏训练,使得图像处理模型的第二图像编码器可以理解复杂的文本语义信息,提升第二图像编码器的收敛速度,保证图像处理模型的图像处理效果。
技术关键词
图像编码器
图像处理模型
图文
知识蒸馏方法
文本编码器
图像处理方法
多模态
样本
电子设备
级联
存储器
处理器
参数
语义
标记
系统为您推荐了相关专利信息
图像特征向量
发票
语义
残差网络模型
预训练语言模型
令牌
节点特征
视频检索方法
神经网络架构
多层感知机
对齐方法
自然语言预处理
社交媒体环境
双向长短期记忆网络
解析器
代码自动生成方法
多模态
代码自动生成系统
数据
代码结构