摘要
本发明涉及一种基于优化算法的视觉‑语言模型图文对精准评测数据构建方法,该方法首先通过公开数据集筛选、实时设备采集或深度生成的方式,构建原始图片集合,依托预训练视觉‑语言模型反向生成初始提示词;结合构建的提示词模板,利用大语言模型对初始提示词进行优化,生成与图片高度匹配的提示词;随后,通过多维度评估函数对图文对数据进行优化处理,并对优化后的数据集进行人工校验,剔除低质量或重复的图文对,最终构建高质量的视觉‑语言模型评测数据集。本发明采用优化算法迭代提升图文对数据的匹配度和多样性,显著提高了评测数据的精准性和覆盖范围,可广泛应用于图像生成、视觉问答、跨模态检索等任务的模型性能评测。
技术关键词
数据构建方法
图文
视觉
图片
算法
语义角色标注方法
句式结构
事件识别
模板
大语言模型
同义词
跨模态
对象
图像编码
交叉注意力机制
文本特征向量
词嵌入模型
系统为您推荐了相关专利信息
时间最优控制方法
单连杆
扩张状态观测器
非暂态计算机可读存储介质
强化学习算法
图像拼接方法
掩膜
无监督
图像拼接系统
特征金字塔网络