大模型安全防护方法、装置、设备及存储介质

AITNT
正文
推荐专利
大模型安全防护方法、装置、设备及存储介质
申请号:CN202510897999
申请日期:2025-07-01
公开号:CN120409549B
公开日期:2025-11-18
类型:发明专利
摘要
本申请涉及人工智能技术领域,公开了一种大模型安全防护方法、装置、设备及存储介质,该方法包括:通过预设攻击模型生成攻击数据集,其中,预设攻击模型为基于真有害查询语句预先训练的模型,真有害查询语句为通过评估模型从待区分查询语句中筛选获得的查询语句,评估模型为用于区分查询语句是否真有害的大语言模型;基于攻击数据集构建安全防护规则,并根据安全防护规则对大模型进行安全防护;由于本申请中由预设攻击模型来生成攻击数据集,而预设攻击模型通过真有害查询语句训练获得,真有害查询语句通过大语言模型从待区分查询语句中筛选,从而能够提高攻击数据集的质量和覆盖范围,进而能够提高大模型安全防护的效果。
技术关键词
语句 防护方法 教师 蒸馏 防护装置 计算机程序产品 防护设备 意图 数据 矩阵 模型训练模块 处理器 参数 大语言模型 人工智能技术 学生 校准 存储器 网格
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号