一种大语言模型安全防护机制的检测方法及系统

正文

推荐专利

申请号：CN202510427763

申请日期：2025-04-07

公开号：CN120316781A

公开日期：2025-07-15

类型：发明专利

摘要

本发明提供一种大语言模型安全防护机制的检测方法及系统，方法在检索增强生成框架上执行，黑盒访问权限下使用查询问题的文本作为前缀文本；白盒访问权限下，检索器中编码器编码获得的文本向量构建为嵌入矩阵，计算各文本向量之间的相似度矩阵对各文本向量进行聚类操作，各类别问题集合的聚类中心的文本作为前缀初始文本并进行类别内部优化后获得前缀文本；通过预设开源越狱问题模板构建越狱问题并在问题前后加提示词；前缀文本和后缀文本组合为恶意文本并加入知识数据库；将目标查询问题输入检索器并从知识数据库中检索出包含恶意文本的问题答案，与查询问题共同输入大语言模型，根据输出结果判断大语言模型安全防护机制是否生效。

技术关键词

大语言模型文本机制生成框架模板风险评估模型聚类度计算方法指令答案计算机程序产品处理器矩阵编码器可读存储介质白盒存储器标识符基准

系统为您推荐了相关专利信息

流域横向生态保护补偿分级分类标准匹配方法及系统、介质

特征映射神经网络规模地形特征数据归一化差分植被指数

一种无人机自主飞行控制系统

无人机自主飞行智能电池组超导量子干涉器件能源管理系统控制系统

WIFI7无线路由器CSMA-CA退避算法的优化方法及系统

无线路由器退避算法索引调制编码策略网络分配矢量

一种基于大模型的酒厂曲房温湿度智能环控系统及方法

曲房温湿度智能环控方法 LightGBM模型物联网感知层制曲工艺

一种分布式光伏用户电力行为监测方法及系统

分布式光伏多源时序数据电力监测方法优化监督学习

一种大语言模型安全防护机制的检测方法及系统

站点导航

APP 下载