大模型对抗样本对生成方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202510622926

申请日期：2025-05-14

公开号：CN120544002A

公开日期：2025-08-26

类型：发明专利

摘要

本申请实施例提供了一种大模型对抗样本对生成方法、装置、电子设备及存储介质，涉及多模态大模型对抗样本技术领域。该方法包括：将图像文本对循环输入目标大模型中，得到对应的隐藏状态，将隐藏状态输入概率预测模型，得到预测越狱概率，基于预测越狱概率，更新图像文本对，直至达到第一预定结束条件，结束更新，得到对抗样本对。本申请实施例通过隐藏状态的越狱概率更新图像文本对，从而生成对抗样本对，能够有效规避与大模型安全对齐的直接冲突，提高对抗样本对的生成效率。

技术关键词

生成方法内容评估文本图像训练样本集电子设备模块参数生成装置多模态

大模型对抗样本对生成方法、装置、电子设备及存储介质

站点导航

APP 下载