摘要
本发明提供了一种文本数据并行语义去重方法、系统、设备及介质,属于文本处理技术领域。所述方法包括:采集待去重的大规模文本数据,进行预处理后生成样本数据,并使用BERT词表进行分词和词频统计,计算出每条样本数据的词频向量;使用预训练的BERT模型提取样本数据的语义特征,根据词频向量计算出样本数据中词语的词语语义权重,并基于语义特征和simhash算法计算样本数据的相似度;根据样本数据的语义相似度,维护预删除字典和全局去重图,并基于全局去重图执行样本数据的删除操作,形成去重后的数据集。本发明通过结合BERT模型、simhash算法及全局去重图,有效提供了大规模文本数据的并行语义去重的效率和准确性。
技术关键词
数据并行语义
去重方法
大规模文本数据
语义特征
词语
生成样本数据
词频统计
字典
分词
文本处理技术
算法
BERT模型
去重系统
文本去重
索引
噪声信息
系统为您推荐了相关专利信息
融合知识图谱
大语言模型
水库
神经网络模型
实体
面部语义特征
患者
监测管理系统
语义特征提取
语义关联度
混合专家系统
门控循环单元
模型检测方法
预训练语言模型
标签
语义特征
点云语义分割方法
预测网络模型
编码特征
正则化策略