摘要
本发明公开了一种新旧文本关联方法及系统,涉及文本匹配技术领域,包括步骤:S1、将待处理文本进行结构化解析处理,得到结构化文本;结构化文本包括条文;S2、对于具有新旧更新关系的两个结构化文本,计算任意一条旧文本的条文和任意一条新文本的条文之间的相似度值;S3、构建带权二分图,包括若干个左部节点和右部节点,分别对应旧、新文本的条文;连接左部节点和右部节点的边为关联;关联的值为相似度值;S4、利用最优匹配算法,查找最多数量的唯一关联;其中,一个左部节点或一个右部节点仅连接一个关联;删除唯一关联之外的其它关联;S5、存储带权二分图。最终可以实现高效高准确度的文本条文变迁匹配查询。
技术关键词
节点
文本匹配技术
算法
关系
标签
字符
序列