一种基于改进BM算法与后缀数组的冗余字段过滤方法

AITNT
正文
推荐专利
一种基于改进BM算法与后缀数组的冗余字段过滤方法
申请号:CN202411473262
申请日期:2024-10-22
公开号:CN119719079A
公开日期:2025-03-28
类型:发明专利
摘要
本发明公开了一种基于改进BM算法与后缀数组的冗余字段过滤方法,涉及模式识别与数据清洗技术领域,包括以下步骤:S1、获取目标文本,并对所述目标文本进行预处理,以获取规范目标文本,且获取所述规范目标文本所对应的文本字符串,S2、获取冗余字段文本,且获取所述冗余字段文本所对应的多段冗余字段,S3、将所述文本字符串作为主串T,构建基于所述主串T的后缀数组S,并对所述后缀数组S进行更新,以得到新后缀数组SA。本发明通过构建后缀数组和最长公共前缀数组,该方法能够在匹配过程中快速定位到可能匹配的位置,避免了不必要的字符比较操作,从而减少了字符比较的次数。
技术关键词
冗余字段过滤方法 BM算法 文本 字符 字典 数据清洗技术 索引 模式识别 三元组 节点 元素
系统为您推荐了相关专利信息
1
字符检测方法和装置
基准 字符检测装置 字符检测方法 字符轮廓 模板匹配算法
2
视觉语言模型的遥感影像KNN检索方法
检索方法 Sigmoid函数 视觉 注意力机制 监督学习方法
3
一种基于多模态大模型的视频理解方法、设备及介质
视频理解方法 视频帧 多模态 序列 视觉特征
4
一种基于视频扩散模型的相机轨迹可控长视频生成方法及系统
视频生成方法 轨迹可控 单目深度估计 滑动窗口 噪声先验
5
基于双模型架构的机器人任务数据处理方法及机器人
主控单元 多模态 动作列表 指令 机器人控制系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号