一种针对大语言模型有害输出的流式检测方法及其系统

AITNT
正文
推荐专利
一种针对大语言模型有害输出的流式检测方法及其系统
申请号:CN202510758621
申请日期:2025-06-09
公开号:CN120671140A
公开日期:2025-09-19
类型:发明专利
摘要
本申请公开了一种针对大语言模型有害输出的流式检测方法,方法包括:对收集的大语言模型有害输出进行词元级标注,获取词元级标注数据;基于词元级标注数据,采用多任务学习框架训练流式检测模型,流式检测模型包括:特征提取器、全局评分器及词元评分器;将流式检测模型跟随大语言模型的词元输出流进行流式检测,根据用户设定的阈值,在大语言模型输出过程中检测和判断输出的有害性,实现基于不完整输出的流式检测。本发明方法实现了在保证检测性能的同时提前中止有害输出流。
技术关键词
流式检测方法 大语言模型 检测模型训练 特征提取器 输出级 多任务 词性信息 处理器 数据 参数 框架 可读存储介质 模块 存储器 逻辑 表达式 电子设备 程序 计算机 策略
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号