摘要
本发明公开了一种知识数据的去重方法及装置、存储介质、计算机设备,涉及数据处理技术领域,适用于金融科技、智慧医疗等业务,主要在于解决现有知识数据去重在处理大规模知识数据时去重效果差的问题,包括获取相关业务的大规模知识数据;采用MinHash LSH模型对所述大规模知识数据进行聚类处理,得到重复文本聚类结果;所述重复文本聚类结果包含多组相似数据集合;采用bge‑m3模型对各组所述相似数据集合进行词嵌入计算,得到与各组相似数据集合相对应的词嵌入;对各组相似数据集合中的所述词嵌入分别进行语义相似度去重处理,得到知识数据的去重结果。
技术关键词
聚类
文本
计算机设备
语义
通信接口
音频
数据处理技术
存储器
分块
图像
处理器
指令
模块
元素
金融
科技
定义
系统为您推荐了相关专利信息
模糊控制算法
误差
模糊推理
隶属度函数
RBF神经网络
云台支架
滑板车
运动特征参数
成像方法
强化学习策略
多模态数据分析
自动评分方法
指标
自动评分系统
数据分析技术
异常域名
特征提取器
特征提取模块
DBSCAN参数
家族