摘要
本申请提供了一种模型安全性评估方法、装置、存储介质及设备,该方法应用于计算机技术领域,该方法包括:向大语言模型输入非安全行为数据,获取大语言模型针对非安全行为数据的目标响应内容。基于相似性度量函数对目标响应内容与预设响应模版进行相似度匹配,若匹配失败,则获取非安全行为数据对应的目标评估规则,将目标评估规则、非安全行为数据以及目标响应内容添加至目标提示词中,基于目标提示词对大语言模型进行安全评估。通过非安全行为数据获取到大语言模型的目标响应内容,以对目标响应内容进行一系列自动检测,进而实现对大语言模型的安全评估,降低了人工成本,提升了大语言模型的可靠性和安全性。
技术关键词
相似性度量函数
大语言模型
安全性评估方法
模版
输入输出接口
计算机存储介质
数据
编辑
语义
存储程序代码
因子
处理器
评估装置
存储器
计算机设备
风险
文本
指令
页面
系统为您推荐了相关专利信息
工业资产关联
业务流程数据
业务流程信息
大语言模型
分析方法
大语言模型
索引生成方法
生成特征向量
索引生成装置
监控日志