摘要
本发明提出一种面向零知识场景的大模型输出内容幻觉检测方法及系统,属于大模型安全应用领域,包括:S1:从大型语言模型LLMs中提取内部状态特征和输出概率特征,其中内部状态特征包括:全上下文平均嵌入ACE和末端词嵌入FTE;输出概率特征包括:词概率TP熵值En;S2:将特征ACE、FTE、TP和En输入分类检测模块进行训练;得到训练好的分类检测模块;S3:当LLMs接受输入提示并开始生成文本时,实时提取特征ACE、FTE、TP和En,并将其输入训练好的分类检测模块,判断该文本的内容是否为幻觉。本发明方法无需外部知识源、结合内部和外部特征的高效、准确地进行幻觉检测。
技术关键词
文本
Sigmoid函数
场景
处理器
电子设备
特征提取模块
搜索算法
序列
可读存储介质
样本
标记
代表
程序
指令
日志
存储器
计算机
数据
系统为您推荐了相关专利信息
机器学习模型
基准
模型评测方法
生成榜单
导入工具