摘要
本发明公开了基于语义一致性差异的AI生成图片盲盒检测方法和装置,所述方法包括:基于冻结参数的预训练多模态大模型BLIP为待检测图片生成对应的描述性文本;利用多模态模型CLIP将待检测图片及其对应的描述性文本组成的图文对嵌入至联合表征空间,提取图文特征。通过两阶段反刍训练构建检测模型:第一阶段将图文特征拼接后输入第一多层感知器MLP1,输出AI生成置信度;第二阶段将置信度作为调控系数,结合本方案提出的损失函数对图文特征余弦相似度进行自适应调整,并在潜空间中迭代优化,生成调控后的联合特征输入第二多层感知器MLP2进行最终判断。该方法无需预知图片来源模型,具有较强的通用性与检测精度,适用于复杂场景下的AI生成图像识别。
技术关键词
多层感知器
图片
图文
文本
语义
两阶段
样本
多模态
标签
嵌入特征
模块
参数
策略
编码
场景
图像
精度