摘要
本申请涉及一种大模型越狱攻击检测方法,该方法包括:S1:基于混合专家模型和Transformer架构构建越狱攻击检测模型,越狱攻击检测模型包括多层MoE‑Transformer结构,并采用正无标记学习方法训练越狱攻击检测模型;S2:获取输入的文本数据,并将文本数据转换为向量表示;S3:将向量表示输入至训练好的越狱攻击检测模型,经过多层MoE‑Transformer结构,输出高层特征向量;S4:高层特征向量经过全连接层,输出越狱攻击概率;基于越狱攻击概率确定越狱攻击情况。该方法在越狱攻击检测的准确性和效率上有显著提升,通过自动化的检测,确保了对大模型越狱攻击的实时防御,降低了潜在的安全风险。
技术关键词
攻击检测模型
攻击检测方法
前馈神经网络
学习方法
文本
样本
焦点
标记
数据
参数
注意力机制
表达式
优化器
警报
批量
元素
序列
动态
系统为您推荐了相关专利信息
人工智能交互
决策分析系统
多模态技术
特征提取单元
分析模块
牲畜
溯源信息
深度学习分析
服务注册中心
物联网设备