摘要
本发明提供一种基于动态扩展和兜底机制的中文大语言模型安全评估系统及方法,属于自然语言处理和人工智能领域。本发明基于现有基准测试数据集,通过大语言模型结合多种攻击方法生成攻击测试数据集,通过兜底机制,对被模型拒绝响应的请求,利用微调的专家模型生成攻击测试数据;再构造其对应的假阳性测试数据集,将攻击测试数据集和假阳性测试数据集输入到待评测中文大语言模型,进行推理并获得输出结果;最后对输出结果进行多维度评估并自动生成报告。本发明具有良好的可扩展性和适应性,能够动态地扩展测试数据集,跟进新兴的安全威胁,并有效避免过敏反应和生成有害内容;为中文大语言模型的安全性评估提供了更为灵活、全面和高效的解决方案。
技术关键词
大语言模型
数据获取模块
内容评估
评估系统
基准
扩展测试数据
对抗性
梯度下降算法
机制
生成报告
输入错误
动态
模版
测试模块
自然语言
功能模块
风险
系统为您推荐了相关专利信息
汽车造型设计
深度神经网络
眼动追踪技术
指标
混合分析方法
大语言模型
文本
图片
旅游信息服务
Web用户界面
秸秆覆盖量
采样点
随机森林模型
混沌粒子群
指数
隧道钢格栅
光流场
融合图像特征
自动焊接方法
像素点