一种针对大语言模型有害输出的流式检测方法及其系统

正文

推荐专利

申请号：CN202510758621

申请日期：2025-06-09

公开号：CN120671140A

公开日期：2025-09-19

类型：发明专利

摘要

本申请公开了一种针对大语言模型有害输出的流式检测方法，方法包括：对收集的大语言模型有害输出进行词元级标注，获取词元级标注数据；基于词元级标注数据，采用多任务学习框架训练流式检测模型，流式检测模型包括：特征提取器、全局评分器及词元评分器；将流式检测模型跟随大语言模型的词元输出流进行流式检测，根据用户设定的阈值，在大语言模型输出过程中检测和判断输出的有害性，实现基于不完整输出的流式检测。本发明方法实现了在保证检测性能的同时提前中止有害输出流。

技术关键词

流式检测方法大语言模型检测模型训练特征提取器输出级多任务词性信息处理器数据参数框架可读存储介质模块存储器逻辑表达式电子设备程序计算机策略

一种针对大语言模型有害输出的流式检测方法及其系统

站点导航

APP 下载