图文多模态模型的知识蒸馏方法、图像处理方法及设备

正文

推荐专利

申请号：CN202411073162

申请日期：2024-08-06

公开号：CN118587562B

公开日期：2024-10-22

类型：发明专利

摘要

本申请公开了一种图文多模态模型的知识蒸馏方法、图像处理方法及设备，方法包括：将样本图像输入至多模态模型的第一图像编码器，得到第一图像特征，将提示文本输入至多模态模型的文本编码器，得到文本特征；将样本图像输入至图像处理模型的第二图像编码器，得到第二图像特征；计算第一图像特征和第二图像特征之间的图像对齐损失；以及，计算文本特征和第二图像特征之间的图文对齐损失；基于图像对齐损失和图文对齐损失训练图像处理模型，可以分别从两个不同模态维度对图像处理模型的第二图像编码器进行蒸馏训练，使得图像处理模型的第二图像编码器可以理解复杂的文本语义信息，提升第二图像编码器的收敛速度，保证图像处理模型的图像处理效果。

技术关键词

图像编码器图像处理模型图文知识蒸馏方法文本编码器图像处理方法多模态样本电子设备级联存储器处理器参数语义标记

系统为您推荐了相关专利信息

视频检索方法、装置、电子设备及可读存储介质

语义特征视频检索方法关键帧场景语句

一种虚开发票识别方法、装置及设备

图像特征向量发票语义残差网络模型预训练语言模型

一种基于人脑情景记忆通路启发的文本视频检索方法

令牌节点特征视频检索方法神经网络架构多层感知机

基于全局语义图的恶意语义对齐方法、系统及电子设备

对齐方法自然语言预处理社交媒体环境双向长短期记忆网络解析器

一种基于多模态大模型的代码自动生成方法、系统及介质

代码自动生成方法多模态代码自动生成系统数据代码结构

图文多模态模型的知识蒸馏方法、图像处理方法及设备

站点导航

APP 下载