基于场景嵌套的大语言模型安全漏洞自动检测方法和装置

AITNT
正文
推荐专利
基于场景嵌套的大语言模型安全漏洞自动检测方法和装置
申请号:CN202510049004
申请日期:2025-01-13
公开号:CN119885206A
公开日期:2025-04-25
类型:发明专利
摘要
本发明公开了一种基于场景嵌套的大语言模型安全漏洞自动检测方法和装置,属于大语言模型安全技术领域,方法包括:构建针对原始提示词的输入变换方式并构建相应的解码方式嵌入目标大语言模型的输入中;在目标大语言模型中进行任务场景嵌套,将原始提示词分别经过不同的输入变换后分别输入目标大语言模型,根据嵌入的解码方式对变换后的提示词进行解码并进行模型推理生成相应任务场景下的输出结果;利用判别器模型对目标大语言模型的输出结果进行有害性判断,若判断结果为有害则表示目标大语言模型存在安全漏洞。本发明能够有效地揭示和检测大语言模型存在的内生和外生安全漏洞,实现对大语言模型存在的安全漏洞进行高效、全面的检测。
技术关键词
大语言模型 自动检测方法 解码方式 编码 场景 嵌套 字母 判别模块 自动检测装置 存储计算机程序 模板 自然语言 符号 索引 存储器 核心 处理器
系统为您推荐了相关专利信息
1
业务辅助操作方法、装置、用户终端及介质
空间布局信息 控件 辅助操作方法 文本识别模型 语音转换功能
2
一种融合多因素用户偏好的下一个兴趣点推荐方法
兴趣点推荐方法 六边形 前馈神经网络 三元组 地点
3
基于鲁棒优化的多模型自适应控制方法
预测误差 压缩机转速 波动工况 冰箱 过渡工况
4
一种新风系统的节能控制方法及系统
新风系统 节能控制方法 LSTM模型 调控策略 染色体
5
一种结合稀疏Transformer的无锚框航空图像车辆检测方法及系统
图像识别模型 航空 注意力 识别方法 金字塔结构
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号