摘要
本发明公开了一种基于改进BM算法与后缀数组的冗余字段过滤方法,涉及模式识别与数据清洗技术领域,包括以下步骤:S1、获取目标文本,并对所述目标文本进行预处理,以获取规范目标文本,且获取所述规范目标文本所对应的文本字符串,S2、获取冗余字段文本,且获取所述冗余字段文本所对应的多段冗余字段,S3、将所述文本字符串作为主串T,构建基于所述主串T的后缀数组S,并对所述后缀数组S进行更新,以得到新后缀数组SA。本发明通过构建后缀数组和最长公共前缀数组,该方法能够在匹配过程中快速定位到可能匹配的位置,避免了不必要的字符比较操作,从而减少了字符比较的次数。
技术关键词
冗余字段过滤方法
BM算法
文本
字符
字典
数据清洗技术
索引
模式识别
三元组
节点
元素
系统为您推荐了相关专利信息
基准
字符检测装置
字符检测方法
字符轮廓
模板匹配算法
检索方法
Sigmoid函数
视觉
注意力机制
监督学习方法
视频生成方法
轨迹可控
单目深度估计
滑动窗口
噪声先验