一种大模型内容安全多级防御方法

AITNT
正文
推荐专利
一种大模型内容安全多级防御方法
申请号:CN202510732752
申请日期:2025-06-03
公开号:CN120880683A
公开日期:2025-10-31
类型:发明专利
摘要
本发明提供了一种大模型内容安全多级防御方法。该方法包括:构建输入‑处理‑输出全链路的多级协同防御框架,全链路多级协同防御框架接收待检测的用户输入数据,将敏感词检测通过的内容传输给意图识别模块;意图识别模块判定出用户输入数据的风险等级,将识别为中高风险的用户输入数据路由至风险标签分类模块;风险标签分类模块对用户输入数据进行风险类别分类,将进行了风险类别分类的用户输入数据传输给安全强化模块;安全强化模块通过领域微调与强化学习策略生成合规的系统响应内容,对系统响应内容进行安全拦截处理后,返回给用户。本发明通过分级防御、动态路由和安全强化模块训练,构建了覆盖输入、推理、输出全流程的大模型安全增强方案。
技术关键词
强化学习策略 高风险 过滤模块 标签 框架 图像多模态 数据 链路 文本 意图识别模型 置信度阈值 关键词 语义向量 样本 对抗性
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号