一种大模型越狱攻击检测方法

正文

推荐专利

一种大模型越狱攻击检测方法

申请号：CN202411965796

申请日期：2024-12-30

公开号：CN119377802B

公开日期：2025-03-25

类型：发明专利

摘要

本申请涉及一种大模型越狱攻击检测方法，该方法包括：S1：基于混合专家模型和Transformer架构构建越狱攻击检测模型，越狱攻击检测模型包括多层MoE‑Transformer结构，并采用正无标记学习方法训练越狱攻击检测模型；S2：获取输入的文本数据，并将文本数据转换为向量表示；S3：将向量表示输入至训练好的越狱攻击检测模型，经过多层MoE‑Transformer结构，输出高层特征向量；S4：高层特征向量经过全连接层，输出越狱攻击概率；基于越狱攻击概率确定越狱攻击情况。该方法在越狱攻击检测的准确性和效率上有显著提升，通过自动化的检测，确保了对大模型越狱攻击的实时防御，降低了潜在的安全风险。

技术关键词

攻击检测模型攻击检测方法前馈神经网络学习方法文本样本焦点标记数据参数注意力机制表达式优化器警报批量元素序列动态

系统为您推荐了相关专利信息

一种SRT文件到FCPXML文件的转换方法

字幕文本格式转换方法开创性软件

基于多模态技术的人工智能交互与决策分析系统

人工智能交互决策分析系统多模态技术特征提取单元分析模块

一种智慧畜牧养殖溯源方法及系统

牲畜溯源信息深度学习分析服务注册中心物联网设备

一种基于大模型的视频融合方法及系统

视频融合方法视觉特征遮挡关系画面关键帧

基于大语言模型的增强问答方法和电子设备

大语言模型分块问答方法文本电子设备

一种大模型越狱攻击检测方法

站点导航

APP 下载