摘要
本发明公开一种针对对抗性攻击的人工智能模型安全防御方法,属于人工智能安全领域。该方法利用过滤器、归纳模型和安全分类器层层过滤,提升在对抗性攻击下人工智能模型的安全性。先将提示输入样本模型生成预回答。然后过滤器对预回答进行过滤,拒绝普通的有害提示和样本模型无法识别的对抗性攻击,保留高质量的预回答。接着把预回答输入归纳模型输出总结,归纳模型能够把回答转换成对应问题。最后让安全分类器对总结进行判别,若输出为有害则拒绝提示,若输出为无害则允许被保护的人工智能模型处理提示。本发明通过多层处理,实现对对抗性攻击的解析和拒绝,在保持受保护的人工智能模型的性能的同时,有效增强了模型的对对抗性攻击的防护能力。
技术关键词
人工智能模型
对抗性
分类器
更新模型参数
序列
受保护
训练集
过滤器
损失函数优化
样本
输入解码器
优化器
护栏
矩阵
编码器
阶段
数据
系统为您推荐了相关专利信息
温度预测方法
冷链物流监控
跨模态
多模态特征
多模态深度
活体检测系统
图像检测技术
关键帧
特征提取模块
层级
图像分类器
对象
计算机可读指令
激光雷达传感器
访问控制系统