摘要
本发明涉及自然语言处理技术领域,公开了一种电子文档差异分析方法、系统、设备及存储介质。该方法包括:通过预设分类模型对待分析文档进行分类和标注得到待分析信息,从待分析信息中提取待分析文本,通过匹配算法将待分析文本和目标文本进行字符匹配得到匹配结果,根据匹配结果确定待分析文本与目标文本的差异字符,并获取差异字符所在差异字段的目标位置信息;差异字符包括待分析文本对应的第一差异字符和目标文本对应的第二差异字符;根据目标位置信息和差异字段,分别在待分析文本和目标文本上生成对应的字段差异批注。本发明可以高效识别出待分析文档和目标文档之间的差异字符,并将差异通过字段的方式进行标注,提高了差异的可读性。
技术关键词
差异分析方法
文本
字符
信息提取模型
字段
对象
表格
计算机设备
计算机存储介质
分词方法
电子签章
图片
分析系统
自然语言
匹配模块
处理器
坐标
算法
存储器