摘要
本发明公开了一种基于多类型数据库文件的多维数据匹配训练处理方法,获取数据库文件内部的新上传更新的文本数据进行清洗,对更新文本数据格式进行标准化统一,对更新文本数据数据进行预处理,根据不同更新文本数据相似度进行分段式优化去重,剔除无效数据;其次通过更新文本数据与不同类别下的样本数据分析不同添加的更新文本与多类型数据库内已有的不同类别的匹配权重系数,构建数据匹配等级框架,将更新文本数据与其对应的样本数据类别进行匹配处理,同时,对匹配权重系数低的更新文本数据根据索引的语义信息进行关键词提取,添加为数据库文件内部的全新类别,从而实现有效识别类别变量进行数据的匹配添加,确保数据库内数据上传添加的灵活性。
技术关键词
文本
关键词
样本
字段
数据语义信息
标记
数据字
数据格式
索引
定义
同义词
框架
分段
字符
变量