一种基于对抗攻击的大模型评测方法和装置

正文

推荐专利

一种基于对抗攻击的大模型评测方法和装置

申请号：CN202510629074

申请日期：2025-05-16

公开号：CN120144484A

公开日期：2025-06-13

类型：发明专利

摘要

本发明提供一种基于对抗攻击的大模型评测方法和装置，涉及人工智能技术领域，方法包括：利用预构建的结构性因果模型，分析混杂因子通过混杂路径对大模型预测结果的混杂效应；基于所述结构性因果模型的分析结果，通过对比不同提示的输出差异，筛选受混杂效应影响的关键样本；针对所述关键样本，通过黑盒方法或白盒方法生成对抗样本；利用所述对抗样本，对所述大模型进行评测。本发明通过对大模型的混杂效应进行分析，并通过因果理论降低混杂因子的影响，从而找到数据集中的关键样本；针对关键样本，提出黑盒与白盒场景下的对抗样本生成方法，将该对抗样本用于大模型评测，能够更加有效的评估大模型的鲁棒性。

技术关键词

模型评测方法效应因子样本生成方法对抗性评测装置人工智能技术变量鲁棒性语义编码向量处理器分析模块方程白盒存储器理论序列电子设备

系统为您推荐了相关专利信息

一种试验箱温度智能调控方法

温度智能调控模拟退火算法试验箱数据时间段

一种避雷器绝缘防护方法

绝缘防护方法避雷器采样点非线性因子

一种用于复合微生物菌剂的有机肥生产参数优化控制方法

参数优化控制方法复合微生物菌剂指数因子生态

抑制异常值的目标运动分析方法、装置、设备及存储介质

运动分析方法协方差矩阵 RLS算法更新模型参数运动分析设备

视频生成方法及设备

滑动时间窗口融合特征提取视频帧视频生成方法序列

一种基于对抗攻击的大模型评测方法和装置

站点导航

APP 下载