摘要
本申请涉及人工智能安全技术领域,公开了一种大语言模型安全优化方法、装置、设备及介质,包括:获取攻击任务数据集;其中,所述攻击任务数据集包括至少一种攻击任务类型和所述攻击任务类型下的多个恶意指令数据;根据所述恶意指令数据生成所述攻击任务类型对应的通用词级对抗后缀,并根据所述通用词级对抗后缀生成所述恶意指令数据对应的目标词级对抗后缀;基于所述目标词级对抗后缀对所述大语言模型进行第一次微调,得到第一微调模型;基于获取到的目标语义级对抗提示对所述第一微调模型进行第二次微调,得到第二微调模型。本申请能够提升大语言模型对各种已知和未知形式的越狱攻击的抵御能力。
技术关键词
大语言模型
指令
语义
贪婪算法
可读存储介质
数据获取模块
优化装置
存储器
处理器
计算机设备
聚类
阶梯
序列
参数
系统为您推荐了相关专利信息
状态监测装置
GIS终端
状态监测方法
高压电缆
温度传感器
智能问答系统
答案
知识图谱构建
大语言模型
三元组
汽车天窗防夹方法
汽车天窗电机
记忆单元
基线
周期