摘要
本发明涉及自动化文件整合的技术领域,具体涉及一种文件系统的自动化文件数据清洗方法,方法包括:获取类型标识、需求信息、多个文件类型以及每一个文件类型包括的多个待处理合同文件,根据每一个待处理合同文件的数据类型复杂度及数据量,得到对应的文件复杂度;根据每一个待处理合同文件的文件复杂度、文件名及文件内容同需求信息的匹配度,得到对应的需求匹配度;根据每一个待处理合同文件的需求匹配度,确定每一个文件类型对应的关键文件;在多个关键文件中识别基准文件,并基于基准文件对多个待处理合同文件进行数据清洗。本发明能使得多个待处理合同文件获得更好的数据清洗效果,以将PDF格式的合同准确转换为EXCEL格式的文件。
技术关键词
数据清洗方法
复杂度
文件系统
分词
基准
标识
语义
格式
系统为您推荐了相关专利信息
集成学习方法
高斯混合模型
EM算法
实时图像
亮度
文本
SimHash算法
知识库构建方法
问答检索方法
融合方法
机器学习模型
融合方法
集成学习模型
站点
评估值计算方法