大模型安全防护方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510897999

申请日期：2025-07-01

公开号：CN120409549B

公开日期：2025-11-18

类型：发明专利

摘要

本申请涉及人工智能技术领域，公开了一种大模型安全防护方法、装置、设备及存储介质，该方法包括：通过预设攻击模型生成攻击数据集，其中，预设攻击模型为基于真有害查询语句预先训练的模型，真有害查询语句为通过评估模型从待区分查询语句中筛选获得的查询语句，评估模型为用于区分查询语句是否真有害的大语言模型；基于攻击数据集构建安全防护规则，并根据安全防护规则对大模型进行安全防护；由于本申请中由预设攻击模型来生成攻击数据集，而预设攻击模型通过真有害查询语句训练获得，真有害查询语句通过大语言模型从待区分查询语句中筛选，从而能够提高攻击数据集的质量和覆盖范围，进而能够提高大模型安全防护的效果。

技术关键词

语句防护方法教师蒸馏防护装置计算机程序产品防护设备意图数据矩阵模型训练模块处理器参数大语言模型人工智能技术学生校准存储器网格

大模型安全防护方法、装置、设备及存储介质

站点导航

APP 下载