摘要
本发明提供一种基于对抗攻击的大模型评测方法和装置,涉及人工智能技术领域,方法包括:利用预构建的结构性因果模型,分析混杂因子通过混杂路径对大模型预测结果的混杂效应;基于所述结构性因果模型的分析结果,通过对比不同提示的输出差异,筛选受混杂效应影响的关键样本;针对所述关键样本,通过黑盒方法或白盒方法生成对抗样本;利用所述对抗样本,对所述大模型进行评测。本发明通过对大模型的混杂效应进行分析,并通过因果理论降低混杂因子的影响,从而找到数据集中的关键样本;针对关键样本,提出黑盒与白盒场景下的对抗样本生成方法,将该对抗样本用于大模型评测,能够更加有效的评估大模型的鲁棒性。
技术关键词
模型评测方法
效应
因子
样本生成方法
对抗性
评测装置
人工智能技术
变量
鲁棒性
语义
编码向量
处理器
分析模块
方程
白盒
存储器
理论
序列
电子设备
系统为您推荐了相关专利信息
参数优化控制方法
复合微生物菌剂
指数
因子
生态
运动分析方法
协方差矩阵
RLS算法
更新模型参数
运动分析设备
滑动时间窗口
融合特征提取
视频帧
视频生成方法
序列