摘要
本申请公开了一种基于改进LCS算法的文档对比方法,涉及数据处理领域,包括:接收用户上传的N个待对比文档;将N个文档分为N组,每组包含一个主文档和N‑1个副文档;设置最小公共子序列长度阈值L0;对于每个分组,构建虚拟二维数组,以主文档的字符数为行数,以副文档的字符数为列数,采用稀疏矩阵存储,仅记录匹配的字符位置;从虚拟二维数组的最后一行最后一列的元素开始,沿二维数组的主对角线方向,逐行向第一行第一列的元素遍历,记录连续匹配字符的内容、在主文档和副文档中的起始位置和结束位置;针对现有技术中烟草采购文件对比效率低,本申请引入了文档分组、多线程并行对比、聚类合并等优化策略等,提高了比对效率。
技术关键词
LCS算法
对象
列表
字符
Wunsch算法
矩阵
字典结构
基准
多线程并行处理
元素
序列
聚类
报告
网络接口
数据
识别码
文本
标签
系统为您推荐了相关专利信息
自动构造方法
大型站场
广度优先搜索算法
对象
自动构造系统
医学成像数据
医学成像系统
医学图像成像方法
视角
深度学习神经网络
自动编制方法
LKJ基础数据
进站信号机
车站结构
基础结构
页面样式
页面代码
计算机可执行指令
处理单元
文档对象模型