图文多模态模型的知识蒸馏方法、图像处理方法及设备

AITNT
正文
推荐专利
图文多模态模型的知识蒸馏方法、图像处理方法及设备
申请号:CN202411073162
申请日期:2024-08-06
公开号:CN118587562B
公开日期:2024-10-22
类型:发明专利
摘要
本申请公开了一种图文多模态模型的知识蒸馏方法、图像处理方法及设备,方法包括:将样本图像输入至多模态模型的第一图像编码器,得到第一图像特征,将提示文本输入至多模态模型的文本编码器,得到文本特征;将样本图像输入至图像处理模型的第二图像编码器,得到第二图像特征;计算第一图像特征和第二图像特征之间的图像对齐损失;以及,计算文本特征和第二图像特征之间的图文对齐损失;基于图像对齐损失和图文对齐损失训练图像处理模型,可以分别从两个不同模态维度对图像处理模型的第二图像编码器进行蒸馏训练,使得图像处理模型的第二图像编码器可以理解复杂的文本语义信息,提升第二图像编码器的收敛速度,保证图像处理模型的图像处理效果。
技术关键词
图像编码器 图像处理模型 图文 知识蒸馏方法 文本编码器 图像处理方法 多模态 样本 电子设备 级联 存储器 处理器 参数 语义 标记
系统为您推荐了相关专利信息
1
视频检索方法、装置、电子设备及可读存储介质
语义特征 视频检索方法 关键帧 场景 语句
2
一种虚开发票识别方法、装置及设备
图像特征向量 发票 语义 残差网络模型 预训练语言模型
3
一种基于人脑情景记忆通路启发的文本视频检索方法
令牌 节点特征 视频检索方法 神经网络架构 多层感知机
4
基于全局语义图的恶意语义对齐方法、系统及电子设备
对齐方法 自然语言预处理 社交媒体环境 双向长短期记忆网络 解析器
5
一种基于多模态大模型的代码自动生成方法、系统及介质
代码自动生成方法 多模态 代码自动生成系统 数据 代码结构
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号