一种基于语境感知策略优化的大模型多场景对抗性动态评测系统及方法

正文

推荐专利

申请号：CN202511266721

申请日期：2025-09-05

公开号：CN120764696B

公开日期：2025-12-05

类型：发明专利

摘要

本发明公开了一种基于语境感知策略优化的大模型多场景对抗性动态评测系统及方法，本发明涉及人工智能安全评测技术领域，针对现有技术中多轮语境建模缺失、对抗样本语义一致性差以及缺乏反馈驱动优化机制的问题，本发明通过构建状态空间与动作空间，采用强化学习策略网络动态生成对抗样本，结合语义扰动与筛选机制扩展高质量样本集，并基于交互日志构建漏洞知识库以指导策略优化与安全评估。该方法能够有效提升模型在高风险多轮交互场景下的安全性评测覆盖度与漏洞发现能力，主要用于医疗、客服等领域的大语言模型安全加固与部署支持。

技术关键词

漏洞知识库样本对抗性评测系统多场景语义强化学习算法高风险计算机终端设备日志强化学习策略更新网络参数处理器评测技术动态评测方法计算机程序产品扩展模块

一种基于语境感知策略优化的大模型多场景对抗性动态评测系统及方法

站点导航

APP 下载