摘要
本发明公开了一种基于正则表达式的数据处理方法、系统、设备及介质,该数据处理方法包括:获取原始文本数据和预先构建的正则表达式规则模型;基于特征变量对原始文本数据进行数据分割,生成按照设定顺序编号排列的文本数据队列;利用特征变量依次遍历文本数据队列进行规则匹配处理,直至将正则表达式中不再分割出新的特征变量为止,生成数据处理结果;检验数据处理结果是否含有重复文本数据,若存在,则对重复文本数据对应的特征变量进行修正以得到新的正则表达式规则模型。本发明通过修正特征变量,不断完善基于机器学习训练得到的正则表达式规则模型,解决人工编写正则表达式效率低,准确度差的问题,增强数据提取的准确性。
技术关键词
数据处理方法
变量
文本
数据处理系统
队列
样本
模型训练模块
上存储计算机程序
机器学习训练
匹配模块
可读存储介质
处理器
存储器
电子设备
系统为您推荐了相关专利信息
标志位
表达式
异常数据
GM模型预测
健康信息管理
深度学习模型
人工智能辅助
场景
软件开发工具包
预处理器
疾病
诊断报告生成方法
图像检测模型
图像特征提取模型
图像分割模型
钢混组合桥
声学优化
结构声学
变量
统计能量分析