一种抵御稠密语言检索模型后门攻击的方法及系统

AITNT
正文
推荐专利
一种抵御稠密语言检索模型后门攻击的方法及系统
申请号:CN202510512500
申请日期:2025-04-23
公开号:CN120409613A
公开日期:2025-08-01
类型:发明专利
摘要
本申请属于人工智能模型安全技术领域,具体公开了一种抵御稠密语言检索模型后门攻击的方法及系统,包括:计算训练样本的学习损失值,筛选出损失值最高和最低的训练样本,形成两个代理数据集并持续更新;计算两个代理数据集对模型参数的梯度,预测最佳防御时机;在最佳防御时机,将损失值最高的代理数据集的查询标记为毒性样本,将损失值最低的代理数据集的查询标记为干净样本,并训练毒性样本标识器;之后,每次更新代理数据集时,使用代理数据集对毒性样本标识器进行增量训练,并标记训练样本中的可疑样本;对可疑样本实施梯度反向优化,对非可疑样本则采用正常的梯度下降优化。通过本申请,可显著提高稠密语言检索模型抵御后门攻击的能力。
技术关键词
标识器 样本 数据 后门 二分类模型 标记 人工智能模型 更新模型参数 可读存储介质 存储计算机程序 文本 梯度下降法 平滑算法 处理器 动态更新 答案 存储器 模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号