一种针对大语言模型的安全对齐测试方法及系统

正文

推荐专利

申请号：CN202510819950

申请日期：2025-06-19

公开号：CN120670557A

公开日期：2025-09-19

类型：发明专利

摘要

本发明公开了一种针对大语言模型的安全对齐测试方法及系统，属于大模型安全技术领域，解决现有越狱提示词生成方法主要依赖算法优化、利用侧通道通信与长尾效应、基于分布式手动制作越狱提示词、多轮自动越狱等，存在生成效率低、测试效果有限的问题。本发明包括将三段式的原始恶意问题输入训练好的三段式改写模型生成固定结构的三段语义层级明确的提示词；将三段式的原始恶意问题及大语言模型针对三段提示词的回复输入越狱判定模型中对大语言模型进行安全对齐测试。本发明用于对大语言模型的安全对齐测试。

技术关键词

对齐测试方法大语言模型阶段意图层级话题语义长尾效应数据模块生成方法主题样本场景算法通道

系统为您推荐了相关专利信息

考虑多维城市空中交通需求的eVTOL垂直起降机场选址方法

选址方法出行需求选址模型交叉点多边形

一种知识产权价值评估的方法与系统

热点预训练语言模型正交变换关键词特征动态更新

一种两阶段少样本自动事实核查方法、电子设备及存储介质

核查方法预训练语言模型两阶段样本概率检索模型

一种基于MongoDB双池循环优化样本的多智能体路径规划方法

样本训练智能算法车辆转弯角度强化学习框架

基于大语言模型的自我反思式提示词优化方法及系统

大语言模型样本模板指标电子设备

一种针对大语言模型的安全对齐测试方法及系统

站点导航

APP 下载