摘要
本发明涉及一种全面的互联网医疗数据的清洗方法、系统、电子设备,属医疗数据处理领域。本发明包括:构建数据清洗框架对获取的医疗数据进行全面的数据清洗,数据清洗框架中的质量过滤模块基于关键词、文本统计特征和度量特征筛选和清理数据。数据清洗框架包含四个模块:格式统一模块将医疗数据转换为统一的标准格式;质量过滤模块用于排除数据中存在的噪声和无效信息;数据去重模块在文本级别与行级别上识别并删除数据中的重复信息;隐私去除模块识别和去除个人身份识别信息。本发明提高中文互联网医疗数据质量,高效处理大量的医疗对话数据,具有高度模块化特点,支持离线部署,不产生额外成本,并有效避免隐私泄露问题。
技术关键词
数据清洗框架
过滤模块
清洗方法
统计特征
个人身份识别
信息熵
度量
多线程方法
互联网文本
格式
查询关键词
噪声模式
电子设备
剔除噪声