一种文本数据并行语义去重方法、系统、设备及介质

AITNT
正文
推荐专利
一种文本数据并行语义去重方法、系统、设备及介质
申请号:CN202510235681
申请日期:2025-02-28
公开号:CN120179756A
公开日期:2025-06-20
类型:发明专利
摘要
本发明提供了一种文本数据并行语义去重方法、系统、设备及介质,属于文本处理技术领域。所述方法包括:采集待去重的大规模文本数据,进行预处理后生成样本数据,并使用BERT词表进行分词和词频统计,计算出每条样本数据的词频向量;使用预训练的BERT模型提取样本数据的语义特征,根据词频向量计算出样本数据中词语的词语语义权重,并基于语义特征和simhash算法计算样本数据的相似度;根据样本数据的语义相似度,维护预删除字典和全局去重图,并基于全局去重图执行样本数据的删除操作,形成去重后的数据集。本发明通过结合BERT模型、simhash算法及全局去重图,有效提供了大规模文本数据的并行语义去重的效率和准确性。
技术关键词
数据并行语义 去重方法 大规模文本数据 语义特征 词语 生成样本数据 词频统计 字典 分词 文本处理技术 算法 BERT模型 去重系统 文本去重 索引 噪声信息
系统为您推荐了相关专利信息
1
一种构建错误的自动分析方法、装置、设备、介质及产品
错误日志 自动分析方法 脚本 标签 冗余
2
一种融合知识图谱的水库应急预案大语言模型审查方法
融合知识图谱 大语言模型 水库 神经网络模型 实体
3
用于重症患者的病情监测管理系统及方法
面部语义特征 患者 监测管理系统 语义特征提取 语义关联度
4
基于提示学习和模糊标签的多领域虚假新闻检测模型检测方法及系统
混合专家系统 门控循环单元 模型检测方法 预训练语言模型 标签
5
多尺度特征提取分类的弱监督点云语义分割方法及系统
语义特征 点云语义分割方法 预测网络模型 编码特征 正则化策略
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号