摘要
本发明公开了基于结构与指令微调大语言模型的图像字幕生成模型,通过ClipCap++模型实现,所述ClipCap++模型包括CLIP视觉编码器、键值对模块、残差连接模块、映射网络和语言模型。ClipCap++模型在进行图像字幕生成期间,可先利用对比语言‑图像预训练编码器CLIP以极大地节省训练资源和时间成本,在冻结CLIP进行预训练后引入来自few‑shot数据集的信息并存储在键值对模型中,再将预训练的视觉特征与优化的特征信息进行残差连接以防止模型对少样本数据的过拟合。对于给定的测试图像而言,ClipCap++模型在推理过程中,可先利用CLIP视觉编码器得到图像嵌入作为硬提示,再使用键值对模块构建实体感知的软提示,最后经过GPT生成图像描述。
技术关键词
图像字幕生成方法
大语言模型
文本编码器
键值
指令
标签信息存储
模块
网络
图像嵌入
信息编码
视觉特征
数据
亲和力
系统为您推荐了相关专利信息
一体化系统
多任务
内容评估
分发媒体内容
多智能体协同
单机等值模型
值机
电磁暂态模型
参数辨识方法
电流控制参数