一种大模型输出内容的安全风险动态过滤与反馈控制方法

正文

推荐专利

申请号：CN202511066961

申请日期：2025-07-30

公开号：CN120995140A

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开了一种大模型输出内容的安全风险动态过滤与反馈控制方法，包括执行多维度风险特征库构建操作。本发明通过采用BERT‑BiLSTM混合模型提取语义特征，结合改进DBSCAN算法实现风险模式自动发现，使特征库更新效率提升40％，文本/图像/语音三模态异构网络设计，通过跨模态注意力机制实现特征互补，使复合型违规内容检测准确率达92.3％，采用静态通道确保基础规则遵守，动态通道捕捉上下文风险，采用三级过滤策略，明确违规内容0.3秒内完全屏蔽，疑似内容添加可视化警示标签，边缘内容采用人工复核，且时间≤5分钟，从而使得本发明在模型输出时，不仅保证内容安全，且最大限度维持大模型的应用价值。

技术关键词

反馈控制方法代表系统自检动态风险评估算法文本特征向量注意力机制警示标签语音国密SM4算法 DBSCAN算法矩阵特征向量空间数据分布特征多模态生成测试用例语义特征提取

一种大模型输出内容的安全风险动态过滤与反馈控制方法

站点导航

APP 下载