大语言模型越狱攻击的风险防御方法及装置

AITNT
正文
推荐专利
大语言模型越狱攻击的风险防御方法及装置
申请号:CN202411849245
申请日期:2024-12-16
公开号:CN119808883B
公开日期:2025-06-03
类型:发明专利
摘要
本申请提供了一种大语言模型越狱攻击的风险防御方法及装置,从大语言模型的输入侧、模型侧、输出侧进行了风险防御。风险防御方法包括:步骤S1,接收输入的文本信息;步骤S2,在大语言模型的输入侧,建立动态恶意关键词库;步骤S3,在大语言模型的模型侧,基于步骤S2传送过来的训练数据,训练学习模型运行反馈信息和模型内部状态信息,基于动态调整策略对大语言模型进行调整;步骤S4,在大语言模型的输出侧,基于步骤S3传送过来的预输出文本信息和步骤S2的动态恶意关键词库,构建输出审核库。本申请通过这种协同工作,每个层面的防御措施都能在整个安全框架中发挥最大效用,从而有效地预防和应对各种潜在的攻击,共同提升模型的整体防御能力。
技术关键词
风险防御方法 大语言模型 关键词 生成对抗网络模型 交互历史 意图识别 动态 命名实体识别 样本 策略 文本情感倾向 内部网络结构 生成对抗模型 数据 频率 神经网络结构
系统为您推荐了相关专利信息
1
一种基于AI的商品搜索推荐系统
搜索推荐系统 生成用户兴趣标签 训练推荐模型 智能对话系统 编码
2
文档处理方法、装置、电子设备及存储介质
大语言模型 控件 意图 自然语言 指令
3
政务数据查询方法、装置、电子设备及存储介质
政务 指标 语句 数据查询方法 大语言模型
4
一种业务系统的开源缺陷数据处理方法和装置
术语 开源技术 缺陷数据处理方法 缺陷类别 关键词
5
一种基于DRL和BP的移动边缘网络协同推理方法
推理方法 终端设备 大语言模型 网络 计算机人工智能技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号