摘要
本发明提供一种基于SISA架构实现大语言模型的异常输出管理方法及系统,涉及模型管理技术领域,包括:将训练数据划分为多个子集并分别对应训练大语言子模型;将用户问题发送至各大语言子模型,得到候选回答和对应的模型输出置信度;计算每个候选回答的敏感词风险置信度及平均置信度,每个候选回答与其余各候选回答之间的文本相似度及平均相似度;根据模型输出置信度、敏感词风险置信度、平均置信度和平均相似度计算每个候选回答对应的异常度分数,并将异常度分数大于异常阈值的候选回答判定为异常输出,对应子集锁定为可疑训练样本。有益效果是建立从模型异常行为到训练数据的可解释映射路径,实现投毒数据及其影响的精准定位和溯源。
技术关键词
输出管理方法
输出管理系统
大语言模型
风险
文本
模型管理技术
定位模块
数据
列表
分片
日志
字符