一种针对大语言模型的安全对齐测试方法及系统

AITNT
正文
推荐专利
一种针对大语言模型的安全对齐测试方法及系统
申请号:CN202510819950
申请日期:2025-06-19
公开号:CN120670557A
公开日期:2025-09-19
类型:发明专利
摘要
本发明公开了一种针对大语言模型的安全对齐测试方法及系统,属于大模型安全技术领域,解决现有越狱提示词生成方法主要依赖算法优化、利用侧通道通信与长尾效应、基于分布式手动制作越狱提示词、多轮自动越狱等,存在生成效率低、测试效果有限的问题。本发明包括将三段式的原始恶意问题输入训练好的三段式改写模型生成固定结构的三段语义层级明确的提示词;将三段式的原始恶意问题及大语言模型针对三段提示词的回复输入越狱判定模型中对大语言模型进行安全对齐测试。本发明用于对大语言模型的安全对齐测试。
技术关键词
对齐测试方法 大语言模型 阶段 意图 层级 话题 语义 长尾效应 数据 模块 生成方法 主题 样本 场景 算法 通道
系统为您推荐了相关专利信息
1
考虑多维城市空中交通需求的eVTOL垂直起降机场选址方法
选址方法 出行需求 选址模型 交叉点 多边形
2
一种知识产权价值评估的方法与系统
热点 预训练语言模型 正交变换 关键词特征 动态更新
3
一种两阶段少样本自动事实核查方法、电子设备及存储介质
核查方法 预训练语言模型 两阶段 样本 概率检索模型
4
一种基于MongoDB双池循环优化样本的多智能体路径规划方法
样本 训练智能 算法 车辆转弯角度 强化学习框架
5
基于大语言模型的自我反思式提示词优化方法及系统
大语言模型 样本 模板 指标 电子设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号