摘要
本发明涉及数据校验技术领域,且公开了一种基于持续学习的公文格式与语义双重校验方法,包括:对文件进行初步校验,判断文件的类型,对文件进行二次校验,根据第一校验数据和第二校验数据,生成最终校验数据,该基于持续学习的公文格式与语义双重校验方法,先对文件根据基本的要求进行格式和语义上的初步校验,再辨别文件的类型,根据文件的类型,尽可能的提取相似的历史文件作为对比文件,将文件与对比文件进行二次校验,结合两次校验结果,确定文件的整体校验结论,并生成调整结果,同时结合文件的整体校验结论和用户确认的调整结果,更新数据库,提升了文本间语义相似度计算的精度,提高了校验的准确度。
技术关键词
校验方法
文本
格式化
语义
校验算法
专业
定义
排版
数据校验技术
表格
BERT模型
间隔特征
生成语句
习惯
文字特征
标记
编辑