摘要
本申请涉及数据清洗技术领域,其具体地公开了一种基于AI的大数据采集清洗方法及系统,其首先将待处理数据样本集按照数据类型分组后,提取第一待处理数据样本子集,并引入基于深度学习的数据处理技术对子集中的各个待处理数据样本进行矢量化编码以提取出数据样本特征,接着通过对各个待处理数据样本特征进行枢纽搜索和动态补偿聚合编码,以捕捉到数据样本集合的原型锚定特征,进而以此为基准,通过度量各个待处理数据样本特征相对于数据集合原型锚定特征的语义偏移程度,以实现对噪声样本的识别和清洗。本申请能够有效识别并剔除大规模数据集中的噪声数据,提高数据清洗的准确性和效率。
技术关键词
编码向量
采集清洗方法
原型
噪声样本
识别器
语义
偏移特征
数据清洗技术
数据样本集合
动态
互补特征
特征提取模块
数据处理技术
分类器
注意力
噪声数据
清洗系统
系统为您推荐了相关专利信息
遥感图像识别方法
图像块
注意力机制
遥感图像识别技术
非暂态计算机可读存储介质
漏洞测试方法
预训练模型
随机噪声
噪声样本
遗传算法优化
消防设施结构
建筑
智能监控方法
消防设备
编码特征