一种面向大型语言模型的多样本攻击检测与防御方法

正文

推荐专利

申请号：CN202511021911

申请日期：2025-07-24

公开号：CN120542579B

公开日期：2025-10-14

类型：发明专利

摘要

一种面向大型语言模型的多样本攻击检测与防御方法，涉及人工智能安全领域。构建多层次文本筛查与干预机制，通过输入内容去重、格式调整及上下文扰动，降低多样本攻击的影响。对文本进行相似性分析，识别高度重复的示例，利用高效匹配策略筛选；利用预训练模型对文本的语义特征映射，结合历史数据比对，判断其是否存在潜在诱导风险。解析多轮对话结构，提取并分析用户与系统的交互模式，动态调整检测规则，提高对不同格式诱导攻击的适应能力。针对高风险文本，采取删除和截断策略，保留少量核心内容，对于部分中等风险文本，调整顺序或插入干扰信息降低其影响。提高LLM在复杂交互环境下的安全性，减少不合规内容的生成，高效、低误伤、可扩展。

技术关键词

文本语义向量关键词多轮对话汉明距离依存句法分析信息熵滑动窗口机制 Siamese网络索引模式检测指纹脚本标记新词识别格式分层策略多层次符号

系统为您推荐了相关专利信息

一种基于大模型的团队精准匹配方法及系统

精准匹配方法团队关键词匹配方法画像模型深度匹配网络

基于虚拟交互的ACLS急救综合服务管理方法和装置

服务管理方法计算机可读取存储介质虚拟交互技术服务管理装置终端

基于迭代优化和多粒度感知的具身对话定位方法及装置

视觉特征定位方法多尺度特征提取查询优化器注意力

车载语音交互测试方法、装置、设备、存储介质及车辆

意图指令测试方法语义车载语音交互系统测试模块

语音指令的识别方法、装置、存储介质和电子设备

语义向量识别方法指令数据执行设备

一种面向大型语言模型的多样本攻击检测与防御方法

站点导航

APP 下载