摘要
本申请实施例提供一种数据去重方法、电子设备及计算机可读存储介质。涉及人工智能领域,该方法包括:基于多个数据分别对应的语义特征,生成多个样本点;按照多个数据分别对应的语义特征之间的语义相似度,确定各样本点与其他样本点之间的转移概率信息;按照转移概率信息,模拟信息在各样本点中进行多步转移,得到各样本点的密度值,密度值表示各样本点经过多步转移后的信息累积程度的度量;按照转移概率信息,确定多个样本点之间的转移概率距离;依据多个样本点之间的转移概率距离,以及各样本点的密度值,对多个数据进行去重处理,得到去重结果。本申请解决了相关技术对冗余数据的去重能力有限,去重鲁棒性不佳的技术问题。
技术关键词
样本
邻居
数据去重方法
语义特征
密度
可读存储介质
电子设备
计算机
度量
处理器
存储器
鲁棒性
冗余
文本
图片
语音
代表
节点
系统为您推荐了相关专利信息
组合特征向量
顶级域
分块
BERT模型
统计特征
激光传感器
移动架
检测机构
激光测距技术
图像识别技术
高锰钢
裂纹缺陷
水口插入深度
工艺控制方法
关键工艺参数