一种大模型输出内容分类违规研判方法

正文

推荐专利

一种大模型输出内容分类违规研判方法

申请号：CN202510640172

申请日期：2025-05-19

公开号：CN120744120A

公开日期：2025-10-03

类型：发明专利

摘要

本发明涉及一种大模型输出内容分类违规研判方法，基于循环迭代，以各迭代下违规种子问题与越狱场景构建违规提问密文，并嵌套目标密码专家角色模板，绕过大语言模型的敏感词检测机制，经大语言模型处理，以各违规回答分别与对应违规种子问题、违规标签构建样本，再结合各违规种子问题经大语言模型所获各不违规回答、以及不违规标签构建样本，组合成样本数据集，用于对分类模型训练获得大模型违规输出检测模型，对经大语言模型的输入与输出实现违规检测；解决了传统方法在违规内容训练数据获取中的瓶颈问题，突破传统数据采集的局限性，为分类模型提供高质量训练数据，进而提高训练所获大模型违规输出检测模型的检测效率。

技术关键词

场景大语言模型研判方法内容分类种子加密算法样本标签数据解密分类模型训练参数密码嵌套分词模板明文对象语句

一种大模型输出内容分类违规研判方法

站点导航

APP 下载