基于结构与指令微调大语言模型的图像字幕生成模型

AITNT
正文
推荐专利
基于结构与指令微调大语言模型的图像字幕生成模型
申请号:CN202410856069
申请日期:2024-06-28
公开号:CN118747893A
公开日期:2024-10-08
类型:发明专利
摘要
本发明公开了基于结构与指令微调大语言模型的图像字幕生成模型,通过ClipCap++模型实现,所述ClipCap++模型包括CLIP视觉编码器、键值对模块、残差连接模块、映射网络和语言模型。ClipCap++模型在进行图像字幕生成期间,可先利用对比语言‑图像预训练编码器CLIP以极大地节省训练资源和时间成本,在冻结CLIP进行预训练后引入来自few‑shot数据集的信息并存储在键值对模型中,再将预训练的视觉特征与优化的特征信息进行残差连接以防止模型对少样本数据的过拟合。对于给定的测试图像而言,ClipCap++模型在推理过程中,可先利用CLIP视觉编码器得到图像嵌入作为硬提示,再使用键值对模块构建实体感知的软提示,最后经过GPT生成图像描述。
技术关键词
图像字幕生成方法 大语言模型 文本编码器 键值 指令 标签信息存储 模块 网络 图像嵌入 信息编码 视觉特征 数据 亲和力
系统为您推荐了相关专利信息
1
一种基于多智能体协同的媒体内容生产及分发一体化系统
一体化系统 多任务 内容评估 分发媒体内容 多智能体协同
2
一种光伏电站单机等值模型参数辨识方法及装置
单机等值模型 值机 电磁暂态模型 参数辨识方法 电流控制参数
3
一种眼底出血面积的计算方法、装置及电子设备
像素 视盘 语义分割模型 比例尺 计算方法
4
搜索方法、装置、电子设备及计算机可读存储介质
搜索平台 搜索方法 标识 可读存储介质 文本
5
一种基于多模态的指令处理方法及装置
指令 上下文特征 意图 多模态 大语言模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号