摘要
本发明公开了一种大模型安全防护方法:准备对抗性提示数据样本:定义对抗性提示的特征,包括提示泄漏和越狱攻击两种类型;从公开数据集和社区分享中提取已知的对抗性提示,通过人工构造和算法微调正常提示生成对抗性提示,整合成数据集并划分训练集和测试集;模型选择与训练:选择适合文本分类任务的机器学习模型;利用所述对抗性提示数据样本对模型进行对抗训练;设计代理逻辑,构建对抗提示检测器中间模块,该模块:通过前端接口接收用户请求;对接收到的请求进行解析;调用对抗性提示检测模块评估请求安全性;根据评估结果选择转发至大模型或直接返回错误响应;测试与迭代,验证对抗提示检测器中间模块功能并根据新增数据重新训练模型。
技术关键词
对抗性
防护方法
检测器
机器学习模型
代表训练数据
样本
大语言模型
处理器
逻辑模块
索引
文本
分析单元
非标准
算法
防护装置
定义
可读存储介质
系统为您推荐了相关专利信息
水力发电机
动态调控方法
特征提取模型
指数
动态调控系统
企业管理信息
重构模块
大数据分析引擎
数据建模技术
搭建模块
微流控模块
量化评估方法
多层传感器
评估装置
可穿戴设备
信号校正方法
接收端
长短期记忆网络
生成对抗网络
机器学习模型