一种大语言模型安全优化方法、装置、设备及介质

正文

推荐专利

申请号：CN202411029274

申请日期：2024-07-30

公开号：CN118965366A

公开日期：2024-11-15

类型：发明专利

摘要

本申请涉及人工智能安全技术领域，公开了一种大语言模型安全优化方法、装置、设备及介质，包括：获取攻击任务数据集；其中，所述攻击任务数据集包括至少一种攻击任务类型和所述攻击任务类型下的多个恶意指令数据；根据所述恶意指令数据生成所述攻击任务类型对应的通用词级对抗后缀，并根据所述通用词级对抗后缀生成所述恶意指令数据对应的目标词级对抗后缀；基于所述目标词级对抗后缀对所述大语言模型进行第一次微调，得到第一微调模型；基于获取到的目标语义级对抗提示对所述第一微调模型进行第二次微调，得到第二微调模型。本申请能够提升大语言模型对各种已知和未知形式的越狱攻击的抵御能力。

技术关键词

大语言模型指令语义贪婪算法可读存储介质数据获取模块优化装置存储器处理器计算机设备聚类阶梯序列参数

系统为您推荐了相关专利信息

一种GIS尾管状态监测装置、监测方法及介质

状态监测装置 GIS终端状态监测方法高压电缆温度传感器

一种面向三维高斯的编辑方法

编辑方法视角图像语义分割深度图噪声

打滑检测方法、装置、电子设备及存储介质

打滑检测方法图像机器人特征点数值

一种基于护理知识图谱的智能问答系统

智能问答系统答案知识图谱构建大语言模型三元组

一种基于差分学习和自适应阈值的汽车天窗防夹方法

汽车天窗防夹方法汽车天窗电机记忆单元基线周期

一种大语言模型安全优化方法、装置、设备及介质

站点导航

APP 下载