一种抵御稠密语言检索模型后门攻击的方法及系统

正文

推荐专利

申请号：CN202510512500

申请日期：2025-04-23

公开号：CN120409613A

公开日期：2025-08-01

类型：发明专利

摘要

本申请属于人工智能模型安全技术领域，具体公开了一种抵御稠密语言检索模型后门攻击的方法及系统，包括：计算训练样本的学习损失值，筛选出损失值最高和最低的训练样本，形成两个代理数据集并持续更新；计算两个代理数据集对模型参数的梯度，预测最佳防御时机；在最佳防御时机，将损失值最高的代理数据集的查询标记为毒性样本，将损失值最低的代理数据集的查询标记为干净样本，并训练毒性样本标识器；之后，每次更新代理数据集时，使用代理数据集对毒性样本标识器进行增量训练，并标记训练样本中的可疑样本；对可疑样本实施梯度反向优化，对非可疑样本则采用正常的梯度下降优化。通过本申请，可显著提高稠密语言检索模型抵御后门攻击的能力。

技术关键词

标识器样本数据后门二分类模型标记人工智能模型更新模型参数可读存储介质存储计算机程序文本梯度下降法平滑算法处理器动态更新答案存储器模块

一种抵御稠密语言检索模型后门攻击的方法及系统

站点导航

APP 下载