摘要
本发明提出一种面向大模型安全评测的评测样本自动生成方法和装置,包括:测评问题集包含多个用于测试大语言模型安全性的评测样本,以具有诱导内容的任务提示为输入,以该任务提示对应的该评测样本标签,微调训练大语言模型输出评测样本,得到评测样本生成模型;根据评测样本的安全风险类别,构建检索问句,检索互联网中属于该安全风险类别的数据资料;根据该安全风险类别以及该数据资料,合成提示文本;从该测评问题集中抽取属于该安全风险类别的评测样本填充至该提示文本后作为任务提示输入该评测样本生成模型,生成用于测试大语言模型的测试样本。
技术关键词
大语言模型
自动生成方法
样本
生成装置
信息显示设备
风险
互联网
文本
人工智能模型
电子设备
测试模块
标签
社交
参数
系统为您推荐了相关专利信息
影像分割方法
注意力机制
深度学习超参数
脑肿瘤分割
脑肿瘤图像
车辆控制策略
网络
记忆模型
生成模型训练方法
序列
预测分类模型
人口统计信息
深度学习模型
支持向量机分类器
多源异构信息