摘要
本发明涉及一种大模型输出内容分类违规研判方法,基于循环迭代,以各迭代下违规种子问题与越狱场景构建违规提问密文,并嵌套目标密码专家角色模板,绕过大语言模型的敏感词检测机制,经大语言模型处理,以各违规回答分别与对应违规种子问题、违规标签构建样本,再结合各违规种子问题经大语言模型所获各不违规回答、以及不违规标签构建样本,组合成样本数据集,用于对分类模型训练获得大模型违规输出检测模型,对经大语言模型的输入与输出实现违规检测;解决了传统方法在违规内容训练数据获取中的瓶颈问题,突破传统数据采集的局限性,为分类模型提供高质量训练数据,进而提高训练所获大模型违规输出检测模型的检测效率。
技术关键词
场景
大语言模型
研判方法
内容分类
种子
加密算法
样本
标签
数据
解密
分类模型训练
参数
密码
嵌套
分词
模板
明文
对象
语句