摘要
本申请公开了配置化的机器学习数据集预处理方法、装置、设备及介质,涉及机器学习技术领域,包括:对数据集预处理配置文件进行校验及解析处理,并替换配置文件中的变量参数,以生成表征数据集预处理步骤的依赖关系有向图;基于配置文件调用目标主函数,以加载预设插件算法池中的目标插件函数;从预设分层存储目录读取配置文件对应的目标机器学习数据集,并通过线程池,根据依赖关系有向图对数据集进行并行预处理,以及将预处理结果保存至目录;在预处理过程中,针对每个预处理步骤的执行状态进行记录,以便进行断点续传,并针对每个文件数据的处理进度持续追踪,以便将追踪结果展示至前端,以及在监测到发生异常时根据预设异常处理策略进行处理。
技术关键词
插件
数据
文件夹
预处理系统
目录
参数
分层
变量
图像处理
表格
对象存储服务
关系
列表
读取配置文件
机器学习技术
缓存算法
表单
校验工具
预处理装置