摘要
本发明涉及数据处理技术领域,特别是涉及一种基于加权图模型的数据清洗方法。包括:收集并预处理原始数据,得到数据矩阵,基于数据矩阵构建无向加权图,并计算相似度;基于相似度计算得到节点的局部熵;基于局部熵,构建结构熵;引入正则化项,构建目标函数,并对目标函数进行优化处理,得到最优数据子集,作为数据清洗的结果。解决了现有的数据清洗方法依赖于大规模、已标注的数据集,而在实际应用场景中,高质量标注数据的获取成本较高,且在数据量不足时模型的性能会显著下降,限制广泛应用;传统的数据清洗算法在处理数据时缺乏对样本之间关系的深层次分析,容易遗漏重要的代表性样本或选入过多冗余样本的技术问题。
技术关键词
数据清洗方法
节点
邻居
数据清洗算法
变量
索引
正则化参数
矩阵
数据处理技术
样本
冗余
度量
指数
场景
关系
系统为您推荐了相关专利信息
拓扑特征
标签
节点分类方法
文本分类模型
训练样本集
数据安全审计方法
模式识别
嵌入特征
基线
生成图谱
欠驱动无人艇
任务分配方法
分布式协同
任务分配策略
无人艇编队