一种针对对抗性攻击的人工智能模型安全防御方法

正文

推荐专利

申请号：CN202510889159

申请日期：2025-06-30

公开号：CN120429874B

公开日期：2025-09-09

类型：发明专利

摘要

本发明公开一种针对对抗性攻击的人工智能模型安全防御方法，属于人工智能安全领域。该方法利用过滤器、归纳模型和安全分类器层层过滤，提升在对抗性攻击下人工智能模型的安全性。先将提示输入样本模型生成预回答。然后过滤器对预回答进行过滤，拒绝普通的有害提示和样本模型无法识别的对抗性攻击，保留高质量的预回答。接着把预回答输入归纳模型输出总结，归纳模型能够把回答转换成对应问题。最后让安全分类器对总结进行判别，若输出为有害则拒绝提示，若输出为无害则允许被保护的人工智能模型处理提示。本发明通过多层处理，实现对对抗性攻击的解析和拒绝，在保持受保护的人工智能模型的性能的同时，有效增强了模型的对对抗性攻击的防护能力。

技术关键词

人工智能模型对抗性分类器更新模型参数序列受保护训练集过滤器损失函数优化样本输入解码器优化器护栏矩阵编码器阶段数据

系统为您推荐了相关专利信息

一种接线盒的智能接线控制方法

接线控制方法工况温度稳定速率智能接线盒

多模态AIGC冷链物流监控平台的温度预测方法及系统

温度预测方法冷链物流监控跨模态多模态特征多模态深度

基于多层级图像检测技术的活体检测系统

活体检测系统图像检测技术关键帧特征提取模块层级

一种基于阅读一致性的阅读内容重组方法

语义向量文章服务器任务分配策略兴趣

对图像分类、训练图像分类器和确定数据集的设备和方法

图像分类器对象计算机可读指令激光雷达传感器访问控制系统

一种针对对抗性攻击的人工智能模型安全防御方法

站点导航

APP 下载