摘要
本申请提供了一种大语言模型越狱攻击的风险防御方法及装置,从大语言模型的输入侧、模型侧、输出侧进行了风险防御。风险防御方法包括:步骤S1,接收输入的文本信息;步骤S2,在大语言模型的输入侧,建立动态恶意关键词库;步骤S3,在大语言模型的模型侧,基于步骤S2传送过来的训练数据,训练学习模型运行反馈信息和模型内部状态信息,基于动态调整策略对大语言模型进行调整;步骤S4,在大语言模型的输出侧,基于步骤S3传送过来的预输出文本信息和步骤S2的动态恶意关键词库,构建输出审核库。本申请通过这种协同工作,每个层面的防御措施都能在整个安全框架中发挥最大效用,从而有效地预防和应对各种潜在的攻击,共同提升模型的整体防御能力。
技术关键词
风险防御方法
大语言模型
关键词
生成对抗网络模型
交互历史
意图识别
动态
命名实体识别
样本
策略
文本情感倾向
内部网络结构
生成对抗模型
数据
频率
神经网络结构
系统为您推荐了相关专利信息
搜索推荐系统
生成用户兴趣标签
训练推荐模型
智能对话系统
编码
术语
开源技术
缺陷数据处理方法
缺陷类别
关键词
推理方法
终端设备
大语言模型
网络
计算机人工智能技术