摘要
本申请公开了一种基于大模型与局部哈希算法的数据去重方法、装置、设备及介质,涉及数据去重技术领域,包括:对获取的待检测数据进行预处理操作以得到目标数据,并基于预设大模型对目标数据进行语义特征提取,以得到目标数据对应的目标高维语义特征向量;利用预设局部敏感哈希算法对降维后的目标高维语义特征向量进行处理,以得到降维后的目标高维语义特征向量分别对应的目标哈希值;基于目标哈希值从目标数据中确定出预期相似数据对,根据预期相似数据对中两数据分别对应的目标哈希值确定预期相似数据对之间的汉明距离;利用汉明距离判断预期相似数据对中的数据是否重复以得到判断结果,并基于判断结果对待检测数据中的重复数据进行数据去重。
技术关键词
数据去重方法
局部敏感哈希算法
汉明距离
Simhash算法
语义特征提取
文本
数据去重装置
数据去重技术
音频
图像
采样率
分块
编码
可读存储介质
色彩
索引
格式