摘要
本发明公开一种基于片段级语义对齐的文档链路构建与演化关系追踪方法,涉及文档管理技术领域,包括:对多个输入文档进行结构化解析,将文档内容划分为多个语义片段;对每个语义片段进行向量化处理,构建文档—片段—向量的语义映射关系;通过跨文档语义向量相似度计算、位置偏移容忍算法与上下文关联分析,实现不同文档片段级语义对齐,建立语义链路网络;融合链路关系、时间戳、版本信息以及作者信息,构建以文档或片段为节点、演化链路为边的文档演化图,来记录文档之间的语义流动路径;将语义链路网络与文档演化图以结构化形式输出。本发明可以解决文档间语义关系缺失、演化路径不可视、内容复用不可追、结构归纳能力不足的问题。
技术关键词
追踪方法
链路
容忍算法
关系
语义向量
可视化交互界面
文档管理技术
节点
预训练语言模型
网络
可视化工具
上下文特征
图谱
标签
摘要
表格
层级
附件
分段