摘要
本申请涉及人工智能技术领域,公开了一种大模型安全防护方法、装置、设备及存储介质,该方法包括:通过预设攻击模型生成攻击数据集,其中,预设攻击模型为基于真有害查询语句预先训练的模型,真有害查询语句为通过评估模型从待区分查询语句中筛选获得的查询语句,评估模型为用于区分查询语句是否真有害的大语言模型;基于攻击数据集构建安全防护规则,并根据安全防护规则对大模型进行安全防护;由于本申请中由预设攻击模型来生成攻击数据集,而预设攻击模型通过真有害查询语句训练获得,真有害查询语句通过大语言模型从待区分查询语句中筛选,从而能够提高攻击数据集的质量和覆盖范围,进而能够提高大模型安全防护的效果。
技术关键词
语句
防护方法
教师
蒸馏
防护装置
计算机程序产品
防护设备
意图
数据
矩阵
模型训练模块
处理器
参数
大语言模型
人工智能技术
学生
校准
存储器
网格