一种大模型输出内容分类违规研判方法

AITNT
正文
推荐专利
一种大模型输出内容分类违规研判方法
申请号:CN202510640172
申请日期:2025-05-19
公开号:CN120744120A
公开日期:2025-10-03
类型:发明专利
摘要
本发明涉及一种大模型输出内容分类违规研判方法,基于循环迭代,以各迭代下违规种子问题与越狱场景构建违规提问密文,并嵌套目标密码专家角色模板,绕过大语言模型的敏感词检测机制,经大语言模型处理,以各违规回答分别与对应违规种子问题、违规标签构建样本,再结合各违规种子问题经大语言模型所获各不违规回答、以及不违规标签构建样本,组合成样本数据集,用于对分类模型训练获得大模型违规输出检测模型,对经大语言模型的输入与输出实现违规检测;解决了传统方法在违规内容训练数据获取中的瓶颈问题,突破传统数据采集的局限性,为分类模型提供高质量训练数据,进而提高训练所获大模型违规输出检测模型的检测效率。
技术关键词
场景 大语言模型 研判方法 内容分类 种子 加密算法 样本 标签 数据 解密 分类模型训练 参数 密码 嵌套 分词 模板 明文 对象 语句
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号