一种大语言模型安全优化方法、装置、设备及介质

AITNT
正文
推荐专利
一种大语言模型安全优化方法、装置、设备及介质
申请号:CN202411029274
申请日期:2024-07-30
公开号:CN118965366A
公开日期:2024-11-15
类型:发明专利
摘要
本申请涉及人工智能安全技术领域,公开了一种大语言模型安全优化方法、装置、设备及介质,包括:获取攻击任务数据集;其中,所述攻击任务数据集包括至少一种攻击任务类型和所述攻击任务类型下的多个恶意指令数据;根据所述恶意指令数据生成所述攻击任务类型对应的通用词级对抗后缀,并根据所述通用词级对抗后缀生成所述恶意指令数据对应的目标词级对抗后缀;基于所述目标词级对抗后缀对所述大语言模型进行第一次微调,得到第一微调模型;基于获取到的目标语义级对抗提示对所述第一微调模型进行第二次微调,得到第二微调模型。本申请能够提升大语言模型对各种已知和未知形式的越狱攻击的抵御能力。
技术关键词
大语言模型 指令 语义 贪婪算法 可读存储介质 数据获取模块 优化装置 存储器 处理器 计算机设备 聚类 阶梯 序列 参数
系统为您推荐了相关专利信息
1
一种GIS尾管状态监测装置、监测方法及介质
状态监测装置 GIS终端 状态监测方法 高压电缆 温度传感器
2
一种面向三维高斯的编辑方法
编辑方法 视角 图像语义分割 深度图 噪声
3
打滑检测方法、装置、电子设备及存储介质
打滑检测方法 图像 机器人 特征点 数值
4
一种基于护理知识图谱的智能问答系统
智能问答系统 答案 知识图谱构建 大语言模型 三元组
5
一种基于差分学习和自适应阈值的汽车天窗防夹方法
汽车天窗防夹方法 汽车天窗电机 记忆单元 基线 周期
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号