摘要
本申请公开了一种基于PDF文档的内容预处理后差异可视化方法、设备及存储介质,涉及文档处理技术领域,该方法包括:提取PDF文档的文本内容和图片内容,并记录PDF文档的原始文档信息以及文本内容和图片内容在提取文件中的位置信息。接着构建映射文件,以确定PDF文档与文本内容和图片内容之间的映射关系。然后按照段落对文本文件进行拆分,得到段落单元,并将段落单元和图片分发至对应处理算子中进行处理。将处理结果整合得到目标文档后,于同一显示界面输出PDF文档与目标文档,并标记PDF文档与目标文档的差异部分。本申请通过位置映射关系,实现了处理前后文档内容的同步展示,便于用户直观比较处理前后的内容差异。
技术关键词
差异可视化
图片
文本
标记
界面
条目
位置映射关系
页面
索引
语义特征
处理器
可读存储介质
指令
存储器
坐标
计算机
颜色
尺寸
系统为您推荐了相关专利信息
地面机器人
机器人协作
空中机器人
UWB基站
定位系统
数据分类方法
图像特征向量
多模态特征
图像编码器
音频编码器