大语言模型越狱攻击的风险防御方法及装置

正文

推荐专利

大语言模型越狱攻击的风险防御方法及装置

申请号：CN202411849245

申请日期：2024-12-16

公开号：CN119808883B

公开日期：2025-06-03

类型：发明专利

摘要

本申请提供了一种大语言模型越狱攻击的风险防御方法及装置，从大语言模型的输入侧、模型侧、输出侧进行了风险防御。风险防御方法包括：步骤S1，接收输入的文本信息；步骤S2，在大语言模型的输入侧，建立动态恶意关键词库；步骤S3，在大语言模型的模型侧，基于步骤S2传送过来的训练数据，训练学习模型运行反馈信息和模型内部状态信息，基于动态调整策略对大语言模型进行调整；步骤S4，在大语言模型的输出侧，基于步骤S3传送过来的预输出文本信息和步骤S2的动态恶意关键词库，构建输出审核库。本申请通过这种协同工作，每个层面的防御措施都能在整个安全框架中发挥最大效用，从而有效地预防和应对各种潜在的攻击，共同提升模型的整体防御能力。

技术关键词

风险防御方法大语言模型关键词生成对抗网络模型交互历史意图识别动态命名实体识别样本策略文本情感倾向内部网络结构生成对抗模型数据频率神经网络结构

系统为您推荐了相关专利信息

一种基于AI的商品搜索推荐系统

搜索推荐系统生成用户兴趣标签训练推荐模型智能对话系统编码

文档处理方法、装置、电子设备及存储介质

大语言模型控件意图自然语言指令

政务数据查询方法、装置、电子设备及存储介质

政务指标语句数据查询方法大语言模型

一种业务系统的开源缺陷数据处理方法和装置

术语开源技术缺陷数据处理方法缺陷类别关键词

一种基于DRL和BP的移动边缘网络协同推理方法

推理方法终端设备大语言模型网络计算机人工智能技术

大语言模型越狱攻击的风险防御方法及装置

站点导航

APP 下载