摘要
本发明提供一种大语言模型安全防护机制的检测方法及系统,方法在检索增强生成框架上执行,黑盒访问权限下使用查询问题的文本作为前缀文本;白盒访问权限下,检索器中编码器编码获得的文本向量构建为嵌入矩阵,计算各文本向量之间的相似度矩阵对各文本向量进行聚类操作,各类别问题集合的聚类中心的文本作为前缀初始文本并进行类别内部优化后获得前缀文本;通过预设开源越狱问题模板构建越狱问题并在问题前后加提示词;前缀文本和后缀文本组合为恶意文本并加入知识数据库;将目标查询问题输入检索器并从知识数据库中检索出包含恶意文本的问题答案,与查询问题共同输入大语言模型,根据输出结果判断大语言模型安全防护机制是否生效。
技术关键词
大语言模型
文本
机制
生成框架
模板
风险评估模型
聚类
度计算方法
指令
答案
计算机程序产品
处理器
矩阵
编码器
可读存储介质
白盒
存储器
标识符
基准
系统为您推荐了相关专利信息
特征映射神经网络
规模
地形特征
数据
归一化差分植被指数
无人机自主飞行
智能电池组
超导量子干涉器件
能源管理系统
控制系统
无线路由器
退避算法
索引
调制编码策略
网络分配矢量
曲房温湿度
智能环控方法
LightGBM模型
物联网感知层
制曲工艺
分布式光伏
多源时序数据
电力
监测方法
优化监督学习