基于反馈的生成式人工智能指令攻击测评方法及系统

AITNT
正文
推荐专利
基于反馈的生成式人工智能指令攻击测评方法及系统
申请号:CN202510802608
申请日期:2025-06-16
公开号:CN120951321A
公开日期:2025-11-14
类型:发明专利
摘要
本发明涉及人工智能安全测评技术领域,公开了基于反馈的生成式人工智能指令攻击测评方法及系统,其方法包括:建立基础攻击模板库,包括多个核心攻击模式及对应的种子提示词;利用动态组合引擎结合语法解析树,从基础攻击模板库中生成提示词,并基于语义特征和情感倾向计算提示词的权重;根据权重对提示词进行排序与筛选,并基于四维评估体系对所选提示词进行评估,获取提示词的评估指标;构建包含攻击生成器、防御判别器与动态平衡机制的训练模型;基于提示词评估指标对训练模型进行反馈优化,并采用弹性权重固化算法对所述训练模型进行更新。本发明通过动态反馈调整指令,覆盖了更多攻击场景,提高了测评效率。
技术关键词
测评方法 生成提示词 LSTM模型 指令 语义特征 模板 蒙特卡洛树 机制 有效性 指标 生成对抗网络 测评技术 测评系统 基础 增量更新 模型更新 搜索算法 动态 种子
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号