摘要
本申请属于大数据领域,涉及一种知识数据去重方法,包括:从知识文档库中获取目标知识数据,目标知识数据包括多个知识文档;基于预设的哈希聚类算法,对多个知识文档进行文本聚类,得到多组文档簇;采用预设的语义向量模型,对多组文档簇内各知识文档进行语义去重,得到目标知识数据对应的去重文档。本申请还提供一种装置、设备及介质。本申请可应用于金融保险等业务领域中,可以提高知识数据去重的效率和准确率。
技术关键词
局部敏感哈希
数据去重方法
聚类算法
计算机可读指令
语义特征
语义向量
数据去重装置
汉明距离
可读存储介质
文本
处理器
计算机设备
矩阵
存储器
大数据
模块
系统为您推荐了相关专利信息
热点挖掘系统
热点挖掘方法
信息采集模块
互联网
文本聚类算法
超声辅助诊断系统
语义特征
特征提取模块
扫描单元
图像采集模块
文本
上下文语义理解
搜索算法优化
损失函数优化
图片
天气预测方法
时空融合特征
气象站
多尺度特征融合
节点