摘要
本申请公开了一种样本生成方法、装置、设备、存储介质及产品,涉及人工智能技术领域,公开了响应于攻击样本生成指令,确定攻击语义库和攻击手段库,攻击语义库包含多种用于引导大语言模型生成风险内容的语义主题,攻击手段库包含多种用于引导大语言模型生成风险内容的手段;从攻击语义库中选取目标语义主题,并从攻击手段库中选取目标攻击手段;通过攻击大模型,基于目标语义主题和目标攻击手段生成目标攻击样本,目标攻击样本用于引导大语言模型生成与目标语义主题匹配的风险内容。该方法能够快速高效地生成大量丰富多样的攻击样本,有利于对大语言模型进行全方位的安全测试。
技术关键词
语义主题
样本生成方法
大语言模型
风险
生成指令
语义库
轮询方式
计算机程序产品
种子
人工智能技术
处理器
生成设备
生成装置
可读存储介质
存储器
模块
层级
系统为您推荐了相关专利信息
电缆老化
物联网通信模块
火灾风险评估
老化模型
测试方法
图像生成方法
图谱
图像生成模型
大语言模型
关键词