摘要
本发明公开了一种基于语境感知策略优化的大模型多场景对抗性动态评测系统及方法,本发明涉及人工智能安全评测技术领域,针对现有技术中多轮语境建模缺失、对抗样本语义一致性差以及缺乏反馈驱动优化机制的问题,本发明通过构建状态空间与动作空间,采用强化学习策略网络动态生成对抗样本,结合语义扰动与筛选机制扩展高质量样本集,并基于交互日志构建漏洞知识库以指导策略优化与安全评估。该方法能够有效提升模型在高风险多轮交互场景下的安全性评测覆盖度与漏洞发现能力,主要用于医疗、客服等领域的大语言模型安全加固与部署支持。
技术关键词
漏洞知识库
样本
对抗性
评测系统
多场景
语义
强化学习算法
高风险
计算机终端设备
日志
强化学习策略
更新网络参数
处理器
评测技术
动态
评测方法
计算机程序产品
扩展模块