摘要
本发明公开了一种数据清洗方法、装置、设备和介质。包括:对待清洗的原始数据进行数据属性识别得到目标属性,并根据目标属性对原始数据进行分组得到多个数据组;根据各数据组内各数据值的频率特征确定数据组特征;根据各数据组的数据组特征从多个数据组中确定标记数据组,并对标记数据组中的错误数据进行标记得到标记数据组的标记结果;根据原始数据和标记数据组的标记结果确定提示信息;将提示信息输入大语言模型中对原始数据进行清洗得到数据清洗结果。通过原始数据的目标属性识别提高了数据组分组结果的准确性;根据数据组特征筛选标记数据组提高了标记数据组中包括异常数据的概率;利用大语言模型进行数据清洗提高了数据清洗的准确性和效率。
技术关键词
大语言模型
数据清洗方法
标记
数据清洗装置
频率
错误检测器
可读存储介质
计算机
参数
修复器
电子设备
处理器通信
异常数据
模块
存储器
指令
格式