一种基于信息熵的文件防脱敏自学习识别系统及方法

正文

推荐专利

申请号：CN202510549146

申请日期：2025-04-28

公开号：CN120580704A

公开日期：2025-09-02

类型：发明专利

摘要

本发明公开的一种基于信息熵的文件防脱敏自学习识别系统及方法，属于自然语言处理与内容安全识别交叉的技术领域，应用于多任务场景下的文档筛选与风险识别。本发明实现方法为：1、对原始文件经过字符识别和降噪处理形成数据集；2、通过小样本训练带标签样本数据分别采用数据滑动窗口和信息熵的概率分布进行最值归一化筛选，进而利用拟合后的线性回归模型形成防脱敏词表；3、采用字典树Trie结构对数据集句段的防脱敏度进行筛选，形成防脱敏句段表；4、利用大模型对章级防脱敏度的数据集文本片段进行标记；5、将被标记的防脱敏文件的防脱敏词、防脱敏度生成防脱敏报告；与现有技术相比，本发明提升了对防脱敏文件筛选的准确率。

技术关键词

学习识别方法信息熵学习识别系统语句带标签线性回归模型文本滑动窗口数据样本字符识别匹配模块字典分析模块权重计算方法标记存储设备代表多模态

系统为您推荐了相关专利信息

锂电池剩余使用寿命预测方法、装置、设备、介质及产品

互补集合经验模态分解序列锂电池剩余使用寿命周期

一种基于Agent的SAAS平台数据检索方法及系统

数据检索方法自然语言语句生成结构化数据排序模型

一种基于大数据的发电厂监控装置时效指标试验分析方法

监控装置大数据分析方法多源运行数据指标

一种面向时序数据库的自然语言转换方法及系统

数据知识库转换方法生成时序数据文本实体

基于多维度配置的大屏数据统计方法

数据统计方法策略数据库查询语句组织执行数据库查询

一种基于信息熵的文件防脱敏自学习识别系统及方法

站点导航

APP 下载