摘要
本申请涉及一种针对大模型长文本任务安全性的评估方法及设备,属于人工智能技术领域。本申请通过收集长文本上下文;根据长文本上下文的内容,构造测试安全性问题的测试指令;将测试指令以及长文本上下文输入到待评测大模型中,获取待评测大模型生成的生成回复;将长文本上下文、测试指令以及生成回复输入到多智能体检测器中,得到待评测大模型的安全性评测结果。本申请针对长文本任务,能够评估大模型在更复杂、真实的场景中的安全性表现,填补了现有评测基准的空白。通过风险分析员、上下文总结员和安全裁判的分工合作,避免大模型生成的误导性或隐蔽不安全内容被忽略,确保评测过程的全面性和准确性,提升大模型在实际应用中的可靠性。
技术关键词
关键词
指令
风险
一致性检测
文本摘要模型
规则匹配方法
文本分类模型
场景
检测器
人工智能技术
评估设备
多标签
逻辑
处理器
可读存储介质
存储器
基准
计算机