一种全面的互联网医疗数据的清洗方法、系统、电子设备

AITNT
正文
推荐专利
一种全面的互联网医疗数据的清洗方法、系统、电子设备
申请号:CN202411807351
申请日期:2024-12-10
公开号:CN119622215A
公开日期:2025-03-14
类型:发明专利
摘要
本发明涉及一种全面的互联网医疗数据的清洗方法、系统、电子设备,属医疗数据处理领域。本发明包括:构建数据清洗框架对获取的医疗数据进行全面的数据清洗,数据清洗框架中的质量过滤模块基于关键词、文本统计特征和度量特征筛选和清理数据。数据清洗框架包含四个模块:格式统一模块将医疗数据转换为统一的标准格式;质量过滤模块用于排除数据中存在的噪声和无效信息;数据去重模块在文本级别与行级别上识别并删除数据中的重复信息;隐私去除模块识别和去除个人身份识别信息。本发明提高中文互联网医疗数据质量,高效处理大量的医疗对话数据,具有高度模块化特点,支持离线部署,不产生额外成本,并有效避免隐私泄露问题。
技术关键词
数据清洗框架 过滤模块 清洗方法 统计特征 个人身份识别 信息熵 度量 多线程方法 互联网文本 格式 查询关键词 噪声模式 电子设备 剔除噪声
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号