摘要
本发明公开了一种基于场景嵌套的大语言模型安全漏洞自动检测方法和装置,属于大语言模型安全技术领域,方法包括:构建针对原始提示词的输入变换方式并构建相应的解码方式嵌入目标大语言模型的输入中;在目标大语言模型中进行任务场景嵌套,将原始提示词分别经过不同的输入变换后分别输入目标大语言模型,根据嵌入的解码方式对变换后的提示词进行解码并进行模型推理生成相应任务场景下的输出结果;利用判别器模型对目标大语言模型的输出结果进行有害性判断,若判断结果为有害则表示目标大语言模型存在安全漏洞。本发明能够有效地揭示和检测大语言模型存在的内生和外生安全漏洞,实现对大语言模型存在的安全漏洞进行高效、全面的检测。
技术关键词
大语言模型
自动检测方法
解码方式
编码
场景
嵌套
字母
判别模块
自动检测装置
存储计算机程序
模板
自然语言
符号
索引
存储器
核心
处理器
系统为您推荐了相关专利信息
空间布局信息
控件
辅助操作方法
文本识别模型
语音转换功能
兴趣点推荐方法
六边形
前馈神经网络
三元组
地点
新风系统
节能控制方法
LSTM模型
调控策略
染色体