摘要
本发明提供一种攻击数据生成和大模型训练方法、装置、设备及存储介质,属于人工智能技术领域,包括:将引导内容输入至攻击语言模型获取攻击提示,确定攻击成功率最高的攻击提示作为目标攻击,收集目标攻击提示相关的攻击数据。本发明利用初始引导内容激发攻击语言模型生成多样化的攻击提示,并基于攻击成功率筛选出最有效的攻击提示作为目标攻击提示进行数据收集,不仅能够自动生成多种攻击提示,减少人工设计攻击提示的工作量,还能通过筛选机制确保所收集攻击数据的有效性和质量,为后续的模型安全性评估和攻击策略优化提供了丰富且精准的数据基础,从而有助于更全面地发现目标语言模型的潜在漏洞,提升模型的安全性和可靠性。
技术关键词
攻击数据生成方法
训练语言模型
模型训练方法
样本
非暂态计算机可读存储介质
策略更新
训练集
文本
数据生成装置
模型训练装置
处理器
人工智能技术
配平
计算机程序产品
动态
采集单元
种子
存储器