一种基于大模型与局部哈希算法的数据去重方法、装置、设备及介质

AITNT
正文
推荐专利
一种基于大模型与局部哈希算法的数据去重方法、装置、设备及介质
申请号:CN202510519021
申请日期:2025-04-24
公开号:CN120372052A
公开日期:2025-07-25
类型:发明专利
摘要
本申请公开了一种基于大模型与局部哈希算法的数据去重方法、装置、设备及介质,涉及数据去重技术领域,包括:对获取的待检测数据进行预处理操作以得到目标数据,并基于预设大模型对目标数据进行语义特征提取,以得到目标数据对应的目标高维语义特征向量;利用预设局部敏感哈希算法对降维后的目标高维语义特征向量进行处理,以得到降维后的目标高维语义特征向量分别对应的目标哈希值;基于目标哈希值从目标数据中确定出预期相似数据对,根据预期相似数据对中两数据分别对应的目标哈希值确定预期相似数据对之间的汉明距离;利用汉明距离判断预期相似数据对中的数据是否重复以得到判断结果,并基于判断结果对待检测数据中的重复数据进行数据去重。
技术关键词
数据去重方法 局部敏感哈希算法 汉明距离 Simhash算法 语义特征提取 文本 数据去重装置 数据去重技术 音频 图像 采样率 分块 编码 可读存储介质 色彩 索引 格式
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号