摘要
本发明属于自然语言文本来源分类相关技术领域,其公开了一种基于信息熵增益的文本检测方法、系统及其训练方法,首先基于信息熵增益映射表将文本转换为特征向量,信息熵增益映射表记录有不同词汇对应的信息熵增益,特征向量由文本中的不同词汇的信息熵增益组成;再使特征向量经过分类神经网络,输出是否为AI文本的二分类结果。本发明利用信息熵增益衡量词汇对文本来源分类的贡献度,熵增益越高的词汇,其对于文本来源分类的贡献度越大,分类神经网络越倾向于基于该特征进行学习与预测,因此能够有效提升区分人工与大模型生成文本的准确性、鲁棒性及整体性能,且检测无需访问模型内部且无需依靠水印标签。
技术关键词
信息熵
分类神经网络
文本检测方法
自然语言文本
计算机程序产品
处理器
数据
识别模块
可读存储介质
存储器
鲁棒性
水印
电子设备
频率
分词
指令
参数
系统为您推荐了相关专利信息
物流选址方法
密度峰值聚类算法
高斯混合模型
信息熵
整数线性规划
数据加载方法
分布式模型
训练系统
设备组
数据加载装置
直播交互方法
终端设备
直播视频数据
关系
交互装置
安全漏洞检测方法
梯度提升决策树算法
资产
数据
大语言模型