一种文本数据并行语义去重方法、系统、设备及介质

正文

推荐专利

申请号：CN202510235681

申请日期：2025-02-28

公开号：CN120179756A

公开日期：2025-06-20

类型：发明专利

摘要

本发明提供了一种文本数据并行语义去重方法、系统、设备及介质，属于文本处理技术领域。所述方法包括：采集待去重的大规模文本数据，进行预处理后生成样本数据，并使用BERT词表进行分词和词频统计，计算出每条样本数据的词频向量；使用预训练的BERT模型提取样本数据的语义特征，根据词频向量计算出样本数据中词语的词语语义权重，并基于语义特征和simhash算法计算样本数据的相似度；根据样本数据的语义相似度，维护预删除字典和全局去重图，并基于全局去重图执行样本数据的删除操作，形成去重后的数据集。本发明通过结合BERT模型、simhash算法及全局去重图，有效提供了大规模文本数据的并行语义去重的效率和准确性。

技术关键词

数据并行语义去重方法大规模文本数据语义特征词语生成样本数据词频统计字典分词文本处理技术算法 BERT模型去重系统文本去重索引噪声信息

系统为您推荐了相关专利信息

一种构建错误的自动分析方法、装置、设备、介质及产品

错误日志自动分析方法脚本标签冗余

一种融合知识图谱的水库应急预案大语言模型审查方法

融合知识图谱大语言模型水库神经网络模型实体

用于重症患者的病情监测管理系统及方法

面部语义特征患者监测管理系统语义特征提取语义关联度

基于提示学习和模糊标签的多领域虚假新闻检测模型检测方法及系统

混合专家系统门控循环单元模型检测方法预训练语言模型标签

多尺度特征提取分类的弱监督点云语义分割方法及系统

语义特征点云语义分割方法预测网络模型编码特征正则化策略

一种文本数据并行语义去重方法、系统、设备及介质

站点导航

APP 下载