摘要
本发明提供一种PDF文档自动脱敏系统、方法、电子设备及计算机程序产品,其中,系统包括:数据获取模块,用于获取待脱敏PDF文档及至少一个目标脱敏对象对应的脱敏规则;规则和文档解析模块,用于解析待脱敏PDF文档,并基于图像识别模型识别目标脱敏对象的类型;多模态内容解析引擎模块,用于根据识别出的目标脱敏对象的类型,解析目标脱敏对象在PDF文档中的具体内容;多模态数据脱敏模块,用于根据解析出的具体内容和目标脱敏对象对应的脱敏规则进行脱敏处理;PDF重构模块,用于将脱敏处理后的内容重构为脱敏后的目标PDF文档。本申请降低了脱敏误识别错误率和脱敏不彻底的概率,提升了敏感信息脱敏的效率。
技术关键词
脱敏规则
多模态
图像识别模型
对象
脱敏系统
数据获取模块
坐标
计算机程序产品
敏感信息脱敏
对齐模块
重构模块
光学字符识别
校正
脱敏方法
电子设备
处理器
位置识别
系统为您推荐了相关专利信息
自助终端
智能身份识别
模块
生态
深度学习图像识别
电力负荷预测方法
长短期记忆网络
电力负荷预测模型
电力系统
数据
大语言模型
索引生成方法
生成特征向量
索引生成装置
监控日志