摘要
本申请属于人工智能模型安全技术领域,具体公开了一种抵御稠密语言检索模型后门攻击的方法及系统,包括:计算训练样本的学习损失值,筛选出损失值最高和最低的训练样本,形成两个代理数据集并持续更新;计算两个代理数据集对模型参数的梯度,预测最佳防御时机;在最佳防御时机,将损失值最高的代理数据集的查询标记为毒性样本,将损失值最低的代理数据集的查询标记为干净样本,并训练毒性样本标识器;之后,每次更新代理数据集时,使用代理数据集对毒性样本标识器进行增量训练,并标记训练样本中的可疑样本;对可疑样本实施梯度反向优化,对非可疑样本则采用正常的梯度下降优化。通过本申请,可显著提高稠密语言检索模型抵御后门攻击的能力。
技术关键词
标识器
样本
数据
后门
二分类模型
标记
人工智能模型
更新模型参数
可读存储介质
存储计算机程序
文本
梯度下降法
平滑算法
处理器
动态更新
答案
存储器
模块