摘要
本说明书实施例公开了一种越狱提示词生成模型训练、越狱攻击方法及装置。该训练方法利用越狱攻击识别检测自动生成训练数据,减少对人工标注依赖,降低训练成本的同时提高了训练效率。此外,该训练方法通过模拟攻击‑检测‑反馈的闭环机制,结合自监督学习的策略在每次检测和反馈中进行自我优化,使得越狱提示词生成模型能够实时更新越狱策略,动态适应新型攻击。本说明书实施例所述的越狱提示词生成模型训练装置、越狱攻击方法以及越狱攻击装置同样具有上述有益效果。
技术关键词
图像
样本
主题
图片
模型训练装置
文本
生成模型训练方法
模块
生成训练数据
电子设备
可读存储介质
元素
存储器
程序
计算机
策略
标签
处理器
闭环
机制