一种基于信息熵增益的文本检测方法、系统及其训练方法

正文

推荐专利

申请号：CN202510528171

申请日期：2025-04-25

公开号：CN120448539A

公开日期：2025-08-08

类型：发明专利

摘要

本发明属于自然语言文本来源分类相关技术领域，其公开了一种基于信息熵增益的文本检测方法、系统及其训练方法，首先基于信息熵增益映射表将文本转换为特征向量，信息熵增益映射表记录有不同词汇对应的信息熵增益，特征向量由文本中的不同词汇的信息熵增益组成；再使特征向量经过分类神经网络，输出是否为AI文本的二分类结果。本发明利用信息熵增益衡量词汇对文本来源分类的贡献度，熵增益越高的词汇，其对于文本来源分类的贡献度越大，分类神经网络越倾向于基于该特征进行学习与预测，因此能够有效提升区分人工与大模型生成文本的准确性、鲁棒性及整体性能，且检测无需访问模型内部且无需依靠水印标签。

技术关键词

信息熵分类神经网络文本检测方法自然语言文本计算机程序产品处理器数据识别模块可读存储介质存储器鲁棒性水印电子设备频率分词指令参数

系统为您推荐了相关专利信息

基于密度峰值聚类与高斯模型结合的物流选址方法及系统

物流选址方法密度峰值聚类算法高斯混合模型信息熵整数线性规划

模型数据加载方法、装置、设备、存储介质及程序产品

数据加载方法分布式模型训练系统设备组数据加载装置

直播交互方法、装置、电子设备、存储介质及程序产品

直播交互方法终端设备直播视频数据关系交互装置

一种动态电压频率调整方法、装置及终端设备

子系统档位映射关系表终端设备电源芯片

一种安全漏洞检测方法、设备、介质及程序产品

安全漏洞检测方法梯度提升决策树算法资产数据大语言模型

一种基于信息熵增益的文本检测方法、系统及其训练方法

站点导航

APP 下载