摘要
本发明提供了一种大模型内容安全多级防御方法。该方法包括:构建输入‑处理‑输出全链路的多级协同防御框架,全链路多级协同防御框架接收待检测的用户输入数据,将敏感词检测通过的内容传输给意图识别模块;意图识别模块判定出用户输入数据的风险等级,将识别为中高风险的用户输入数据路由至风险标签分类模块;风险标签分类模块对用户输入数据进行风险类别分类,将进行了风险类别分类的用户输入数据传输给安全强化模块;安全强化模块通过领域微调与强化学习策略生成合规的系统响应内容,对系统响应内容进行安全拦截处理后,返回给用户。本发明通过分级防御、动态路由和安全强化模块训练,构建了覆盖输入、推理、输出全流程的大模型安全增强方案。
技术关键词
强化学习策略
高风险
过滤模块
标签
框架
图像多模态
数据
链路
文本
意图识别模型
置信度阈值
关键词
语义向量
样本
对抗性