摘要
本申请公开了基于行业大模型的提示词攻击行为的检测方法、装置、设备及介质,涉及计算机技术领域,包括:基于预设正则表达式匹配库及客户端的提问信息对预设白名单进行多模正则匹配;若匹配失败则基于预设正则表达式匹配库及提问信息对预设黑名单进行多模正则匹配;若匹配失败,则利用预先基于目标语料训练集进行大模型微调后确定的拒识大模型对提问信息进行针对提示词攻击行为的检测;若检测结果表明提问信息为正常信息,则基于行业大模型确定提问信息对应的答复内容,利用预先基于所述目标语料训练集进行大模型微调后确定的拒答大模型对所述答复内容进行检测,以确定是否触发答复拦截操作。本申请提高了行业大模型对提示词攻击行为的防御能力。
技术关键词
白名单
训练集
条目
客户端
匹配模块
列表
日志
日期
端口
可读存储介质
服务端
处理器
电子设备
数据
语义
存储器
计算机
风险
系统为您推荐了相关专利信息
短期风电功率预测
历史功率数据
建模方法
灰狼算法
位置更新
网络安全防护方法
网络安全防护系统
网络安全分析
数据处理模块
网络安全防护技术
注意力
深度神经网络
风格
图像特征编码
全局特征提取