基于结构与指令微调大语言模型的图像字幕生成模型

正文

推荐专利

申请号：CN202410856069

申请日期：2024-06-28

公开号：CN118747893A

公开日期：2024-10-08

类型：发明专利

摘要

本发明公开了基于结构与指令微调大语言模型的图像字幕生成模型，通过ClipCap++模型实现，所述ClipCap++模型包括CLIP视觉编码器、键值对模块、残差连接模块、映射网络和语言模型。ClipCap++模型在进行图像字幕生成期间，可先利用对比语言‑图像预训练编码器CLIP以极大地节省训练资源和时间成本，在冻结CLIP进行预训练后引入来自few‑shot数据集的信息并存储在键值对模型中，再将预训练的视觉特征与优化的特征信息进行残差连接以防止模型对少样本数据的过拟合。对于给定的测试图像而言，ClipCap++模型在推理过程中，可先利用CLIP视觉编码器得到图像嵌入作为硬提示，再使用键值对模块构建实体感知的软提示，最后经过GPT生成图像描述。

技术关键词

图像字幕生成方法大语言模型文本编码器键值指令标签信息存储模块网络图像嵌入信息编码视觉特征数据亲和力

系统为您推荐了相关专利信息

一种基于多智能体协同的媒体内容生产及分发一体化系统

一体化系统多任务内容评估分发媒体内容多智能体协同

一种光伏电站单机等值模型参数辨识方法及装置

单机等值模型值机电磁暂态模型参数辨识方法电流控制参数

一种眼底出血面积的计算方法、装置及电子设备

像素视盘语义分割模型比例尺计算方法

搜索方法、装置、电子设备及计算机可读存储介质

搜索平台搜索方法标识可读存储介质文本

一种基于多模态的指令处理方法及装置

指令上下文特征意图多模态大语言模型

基于结构与指令微调大语言模型的图像字幕生成模型

站点导航

APP 下载