摘要
本发明公开了一种基于加权投票的大语言模型全流程内容风险检测方法和装置,包括:在输入端对用户输入进行基于意图分析、有害关键词匹配、有害性检测提示词、注入攻击检测器的内容风险检测,对输入端各项内容风险检测的结果进行加权投票以确定用户输入是否安全,对于不安全的用户输入则拒绝回答;在大语言模型中对于安全的用户输入进行推理得到模型输出;在输出端对模型输出进行基于意图分析、有害性检测提示词、反向翻译的内容风险检测,对输出端各项内容风险检测的结果进行加权投票以确定模型输出是否安全,对于不安全的模型输出则拒绝输出,将安全的模型输出反馈至用户。本发明能对大语言模型推理流程中的风险内容进行高效、全面、准确的检测。
技术关键词
风险检测方法
大语言模型
关键词
意图识别
输入端
输出端
检测器
攻击检测模型
风险检测装置
存储计算机程序
标签
模块
处理器
索引
存储器
电子设备
系统为您推荐了相关专利信息
大语言模型
深度学习模型
模态特征
网络爬虫技术
数据
意图识别方法
动态贝叶斯网络模型
驾驶模拟器
路段交通流
滑动时间窗口
隔离传输电路
同步整流控制
同步整流开关
逻辑控制电路
副边同步整流