一种基于信息熵的文件防脱敏自学习识别系统及方法

AITNT
正文
推荐专利
一种基于信息熵的文件防脱敏自学习识别系统及方法
申请号:CN202510549146
申请日期:2025-04-28
公开号:CN120580704A
公开日期:2025-09-02
类型:发明专利
摘要
本发明公开的一种基于信息熵的文件防脱敏自学习识别系统及方法,属于自然语言处理与内容安全识别交叉的技术领域,应用于多任务场景下的文档筛选与风险识别。本发明实现方法为:1、对原始文件经过字符识别和降噪处理形成数据集;2、通过小样本训练带标签样本数据分别采用数据滑动窗口和信息熵的概率分布进行最值归一化筛选,进而利用拟合后的线性回归模型形成防脱敏词表;3、采用字典树Trie结构对数据集句段的防脱敏度进行筛选,形成防脱敏句段表;4、利用大模型对章级防脱敏度的数据集文本片段进行标记;5、将被标记的防脱敏文件的防脱敏词、防脱敏度生成防脱敏报告;与现有技术相比,本发明提升了对防脱敏文件筛选的准确率。
技术关键词
学习识别方法 信息熵 学习识别系统 语句 带标签 线性回归模型 文本 滑动窗口 数据 样本 字符识别 匹配模块 字典 分析模块 权重计算方法 标记 存储设备 代表 多模态
系统为您推荐了相关专利信息
1
锂电池剩余使用寿命预测方法、装置、设备、介质及产品
互补集合经验模态分解 序列 锂电池 剩余使用寿命 周期
2
一种基于Agent的SAAS平台数据检索方法及系统
数据检索方法 自然语言 语句 生成结构化数据 排序模型
3
一种基于大数据的发电厂监控装置时效指标试验分析方法
监控装置 大数据 分析方法 多源运行数据 指标
4
一种面向时序数据库的自然语言转换方法及系统
数据知识库 转换方法 生成时序数据 文本 实体
5
基于多维度配置的大屏数据统计方法
数据统计方法 策略 数据库查询语句 组织 执行数据库查询
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号