摘要
一种面向大型语言模型的多样本攻击检测与防御方法,涉及人工智能安全领域。构建多层次文本筛查与干预机制,通过输入内容去重、格式调整及上下文扰动,降低多样本攻击的影响。对文本进行相似性分析,识别高度重复的示例,利用高效匹配策略筛选;利用预训练模型对文本的语义特征映射,结合历史数据比对,判断其是否存在潜在诱导风险。解析多轮对话结构,提取并分析用户与系统的交互模式,动态调整检测规则,提高对不同格式诱导攻击的适应能力。针对高风险文本,采取删除和截断策略,保留少量核心内容,对于部分中等风险文本,调整顺序或插入干扰信息降低其影响。提高LLM在复杂交互环境下的安全性,减少不合规内容的生成,高效、低误伤、可扩展。
技术关键词
文本
语义向量
关键词
多轮对话
汉明距离
依存句法分析
信息熵
滑动窗口机制
Siamese网络
索引
模式检测
指纹
脚本标记
新词识别
格式
分层策略
多层次
符号
系统为您推荐了相关专利信息
精准匹配方法
团队
关键词匹配方法
画像模型
深度匹配网络
服务管理方法
计算机可读取存储介质
虚拟交互技术
服务管理装置
终端
视觉特征
定位方法
多尺度特征提取
查询优化器
注意力
意图指令
测试方法
语义
车载语音交互系统
测试模块