摘要
本发明涉及人工智能安全测评技术领域,公开了基于反馈的生成式人工智能指令攻击测评方法及系统,其方法包括:建立基础攻击模板库,包括多个核心攻击模式及对应的种子提示词;利用动态组合引擎结合语法解析树,从基础攻击模板库中生成提示词,并基于语义特征和情感倾向计算提示词的权重;根据权重对提示词进行排序与筛选,并基于四维评估体系对所选提示词进行评估,获取提示词的评估指标;构建包含攻击生成器、防御判别器与动态平衡机制的训练模型;基于提示词评估指标对训练模型进行反馈优化,并采用弹性权重固化算法对所述训练模型进行更新。本发明通过动态反馈调整指令,覆盖了更多攻击场景,提高了测评效率。
技术关键词
测评方法
生成提示词
LSTM模型
指令
语义特征
模板
蒙特卡洛树
机制
有效性
指标
生成对抗网络
测评技术
测评系统
基础
增量更新
模型更新
搜索算法
动态
种子