摘要
本发明公开的一种基于信息熵的文件防脱敏自学习识别系统及方法,属于自然语言处理与内容安全识别交叉的技术领域,应用于多任务场景下的文档筛选与风险识别。本发明实现方法为:1、对原始文件经过字符识别和降噪处理形成数据集;2、通过小样本训练带标签样本数据分别采用数据滑动窗口和信息熵的概率分布进行最值归一化筛选,进而利用拟合后的线性回归模型形成防脱敏词表;3、采用字典树Trie结构对数据集句段的防脱敏度进行筛选,形成防脱敏句段表;4、利用大模型对章级防脱敏度的数据集文本片段进行标记;5、将被标记的防脱敏文件的防脱敏词、防脱敏度生成防脱敏报告;与现有技术相比,本发明提升了对防脱敏文件筛选的准确率。
技术关键词
学习识别方法
信息熵
学习识别系统
语句
带标签
线性回归模型
文本
滑动窗口
数据
样本
字符识别
匹配模块
字典
分析模块
权重计算方法
标记
存储设备
代表
多模态
系统为您推荐了相关专利信息
互补集合经验模态分解
序列
锂电池
剩余使用寿命
周期
数据检索方法
自然语言
语句
生成结构化数据
排序模型
数据统计方法
策略
数据库查询语句
组织
执行数据库查询