攻击数据生成和大模型训练方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510917181

申请日期：2025-07-03

公开号：CN121030325A

公开日期：2025-11-28

类型：发明专利

摘要

本发明提供一种攻击数据生成和大模型训练方法、装置、设备及存储介质，属于人工智能技术领域，包括：将引导内容输入至攻击语言模型获取攻击提示，确定攻击成功率最高的攻击提示作为目标攻击，收集目标攻击提示相关的攻击数据。本发明利用初始引导内容激发攻击语言模型生成多样化的攻击提示，并基于攻击成功率筛选出最有效的攻击提示作为目标攻击提示进行数据收集，不仅能够自动生成多种攻击提示，减少人工设计攻击提示的工作量，还能通过筛选机制确保所收集攻击数据的有效性和质量，为后续的模型安全性评估和攻击策略优化提供了丰富且精准的数据基础，从而有助于更全面地发现目标语言模型的潜在漏洞，提升模型的安全性和可靠性。

技术关键词

攻击数据生成方法训练语言模型模型训练方法样本非暂态计算机可读存储介质策略更新训练集文本数据生成装置模型训练装置处理器人工智能技术配平计算机程序产品动态采集单元种子存储器

攻击数据生成和大模型训练方法、装置、设备及存储介质

站点导航

APP 下载