摘要
本申请实施例提供一种文本差异检测方法、装置及存储介质。方法包括:获取模板文本和待对比文本;确定模板文本和待对比文本的文本格式;在模板文本和/或待对比文本的文本格式不是图片格式时,将文本格式转换为图片格式;确定与转换后的模板文本的每页图像对应的第一文本信息及与转换后的待对比文本的每页图像对应的第二文本信息;根据最长子序列匹配算法递归确定每个第一文本信息中的多个第一公共子序列和每个第二文本信息中的多个第二公共子序列;确定每个第一公共子序列所在的第一完整序列与每个第二公共子序列所在的第二完整序列之间的编辑距离;根据全部编辑距离检测待对比文本与模板文本之间是否存在差异,提高文本差异检测的准确率。
技术关键词
文本
差异检测方法
模板
序列
OCR识别模型
编辑
距离检测
图像增强
字符
机器可读存储介质
水印
标识
指令
格式
处理器
显示设备
存储器
算法