基于场景嵌套的大语言模型安全漏洞自动检测方法和装置

正文

推荐专利

申请号：CN202510049004

申请日期：2025-01-13

公开号：CN119885206A

公开日期：2025-04-25

类型：发明专利

摘要

本发明公开了一种基于场景嵌套的大语言模型安全漏洞自动检测方法和装置，属于大语言模型安全技术领域，方法包括：构建针对原始提示词的输入变换方式并构建相应的解码方式嵌入目标大语言模型的输入中；在目标大语言模型中进行任务场景嵌套，将原始提示词分别经过不同的输入变换后分别输入目标大语言模型，根据嵌入的解码方式对变换后的提示词进行解码并进行模型推理生成相应任务场景下的输出结果；利用判别器模型对目标大语言模型的输出结果进行有害性判断，若判断结果为有害则表示目标大语言模型存在安全漏洞。本发明能够有效地揭示和检测大语言模型存在的内生和外生安全漏洞，实现对大语言模型存在的安全漏洞进行高效、全面的检测。

技术关键词

大语言模型自动检测方法解码方式编码场景嵌套字母判别模块自动检测装置存储计算机程序模板自然语言符号索引存储器核心处理器

系统为您推荐了相关专利信息

业务辅助操作方法、装置、用户终端及介质

空间布局信息控件辅助操作方法文本识别模型语音转换功能

一种融合多因素用户偏好的下一个兴趣点推荐方法

兴趣点推荐方法六边形前馈神经网络三元组地点

基于鲁棒优化的多模型自适应控制方法

预测误差压缩机转速波动工况冰箱过渡工况

一种新风系统的节能控制方法及系统

新风系统节能控制方法 LSTM模型调控策略染色体

一种结合稀疏Transformer的无锚框航空图像车辆检测方法及系统

图像识别模型航空注意力识别方法金字塔结构

基于场景嵌套的大语言模型安全漏洞自动检测方法和装置

站点导航

APP 下载