一种知识数据的去重方法及装置、存储介质、计算机设备

AITNT
正文
推荐专利
一种知识数据的去重方法及装置、存储介质、计算机设备
申请号:CN202510862448
申请日期:2025-06-25
公开号:CN120745774A
公开日期:2025-10-03
类型:发明专利
摘要
本发明公开了一种知识数据的去重方法及装置、存储介质、计算机设备,涉及数据处理技术领域,适用于金融科技、智慧医疗等业务,主要在于解决现有知识数据去重在处理大规模知识数据时去重效果差的问题,包括获取相关业务的大规模知识数据;采用MinHash LSH模型对所述大规模知识数据进行聚类处理,得到重复文本聚类结果;所述重复文本聚类结果包含多组相似数据集合;采用bge‑m3模型对各组所述相似数据集合进行词嵌入计算,得到与各组相似数据集合相对应的词嵌入;对各组相似数据集合中的所述词嵌入分别进行语义相似度去重处理,得到知识数据的去重结果。
技术关键词
聚类 文本 计算机设备 语义 通信接口 音频 数据处理技术 存储器 分块 图像 处理器 指令 模块 元素 金融 科技 定义
系统为您推荐了相关专利信息
1
一种卷绕张力控制方法
模糊控制算法 误差 模糊推理 隶属度函数 RBF神经网络
2
一种SMT物料数量统计方法及装置
样本 视觉特征 数量统计方法 语义特征 预测类别
3
一种带云台支架的电动滑板车及其智能成像方法
云台支架 滑板车 运动特征参数 成像方法 强化学习策略
4
基于多模态数据分析的AI配音质量自动评分方法及系统
多模态数据分析 自动评分方法 指标 自动评分系统 数据分析技术
5
基于机器学习的异常域名检测系统
异常域名 特征提取器 特征提取模块 DBSCAN参数 家族
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号