摘要
本申请公开了一种针对大语言模型有害输出的流式检测方法,方法包括:对收集的大语言模型有害输出进行词元级标注,获取词元级标注数据;基于词元级标注数据,采用多任务学习框架训练流式检测模型,流式检测模型包括:特征提取器、全局评分器及词元评分器;将流式检测模型跟随大语言模型的词元输出流进行流式检测,根据用户设定的阈值,在大语言模型输出过程中检测和判断输出的有害性,实现基于不完整输出的流式检测。本发明方法实现了在保证检测性能的同时提前中止有害输出流。
技术关键词
流式检测方法
大语言模型
检测模型训练
特征提取器
输出级
多任务
词性信息
处理器
数据
参数
框架
可读存储介质
模块
存储器
逻辑
表达式
电子设备
程序
计算机
策略