一种针对对抗性攻击的人工智能模型安全防御方法

AITNT
正文
推荐专利
一种针对对抗性攻击的人工智能模型安全防御方法
申请号:CN202510889159
申请日期:2025-06-30
公开号:CN120429874B
公开日期:2025-09-09
类型:发明专利
摘要
本发明公开一种针对对抗性攻击的人工智能模型安全防御方法,属于人工智能安全领域。该方法利用过滤器、归纳模型和安全分类器层层过滤,提升在对抗性攻击下人工智能模型的安全性。先将提示输入样本模型生成预回答。然后过滤器对预回答进行过滤,拒绝普通的有害提示和样本模型无法识别的对抗性攻击,保留高质量的预回答。接着把预回答输入归纳模型输出总结,归纳模型能够把回答转换成对应问题。最后让安全分类器对总结进行判别,若输出为有害则拒绝提示,若输出为无害则允许被保护的人工智能模型处理提示。本发明通过多层处理,实现对对抗性攻击的解析和拒绝,在保持受保护的人工智能模型的性能的同时,有效增强了模型的对对抗性攻击的防护能力。
技术关键词
人工智能模型 对抗性 分类器 更新模型参数 序列 受保护 训练集 过滤器 损失函数优化 样本 输入解码器 优化器 护栏 矩阵 编码器 阶段 数据
系统为您推荐了相关专利信息
1
一种接线盒的智能接线控制方法
接线控制方法 工况 温度稳定 速率 智能接线盒
2
多模态AIGC冷链物流监控平台的温度预测方法及系统
温度预测方法 冷链物流监控 跨模态 多模态特征 多模态深度
3
基于多层级图像检测技术的活体检测系统
活体检测系统 图像检测技术 关键帧 特征提取模块 层级
4
一种基于阅读一致性的阅读内容重组方法
语义向量 文章 服务器 任务分配策略 兴趣
5
对图像分类、训练图像分类器和确定数据集的设备和方法
图像分类器 对象 计算机可读指令 激光雷达传感器 访问控制系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号