摘要
本申请公开了一种文档信息对比的方法、装置、设备及介质。在上述方法中,首先获取具有多个待对比word文档word文档集之后,提取多个待对比word文档中段落的文本内容;再使用字符对比算法将待对比word文档中标准word文档与除标准word文档之外的对比word文档中段落的文本内容进行字面差异检测,识别出每一段落中的差异部分;最后使用语义差异模型对差异部分对应的文本内容进行语义差异检测,识别出差异部分的差异类型。在此过程中,由于利用模型将差异部分进行语义差异检测,检测出具体差异部分的差异类型,能够准确识别文本的语义差异,并且整个差异检测过程高效,能够快速处理大规模文档。
技术关键词
文本
预训练语言模型
语义向量
字符
算法
可读存储介质
存储计算机程序
电子设备
存储器
编码
标记
字体
分词
表格
关系
样式