一种大模型内容安全多级防御方法

正文

推荐专利

一种大模型内容安全多级防御方法

申请号：CN202510732752

申请日期：2025-06-03

公开号：CN120880683A

公开日期：2025-10-31

类型：发明专利

摘要

本发明提供了一种大模型内容安全多级防御方法。该方法包括：构建输入‑处理‑输出全链路的多级协同防御框架，全链路多级协同防御框架接收待检测的用户输入数据，将敏感词检测通过的内容传输给意图识别模块；意图识别模块判定出用户输入数据的风险等级，将识别为中高风险的用户输入数据路由至风险标签分类模块；风险标签分类模块对用户输入数据进行风险类别分类，将进行了风险类别分类的用户输入数据传输给安全强化模块；安全强化模块通过领域微调与强化学习策略生成合规的系统响应内容，对系统响应内容进行安全拦截处理后，返回给用户。本发明通过分级防御、动态路由和安全强化模块训练，构建了覆盖输入、推理、输出全流程的大模型安全增强方案。

技术关键词

强化学习策略高风险过滤模块标签框架图像多模态数据链路文本意图识别模型置信度阈值关键词语义向量样本对抗性

一种大模型内容安全多级防御方法

站点导航

APP 下载