一种面向大数据环境的动态文档去重方法及系统

正文

推荐专利

申请号：CN202410846433

申请日期：2024-06-27

公开号：CN118897947A

公开日期：2024-11-05

类型：发明专利

摘要

本发明公开了一种面向大数据环境的动态文档去重方法及系统，涉及动态文档去重技术领域，包括采集原始文本数据并进行预处理，基于自然语言处理方法对预处理文本数据进行关键词切分；计算切分文本数据中每个关键词的TF‑IDF值获取频率文本数据，基于哈希函数生成关键词特征集并生成标识符；通过标识符比较各文档的相似度，构建分布式计算框架对比较过程进行并行去重处理。本发明所述方法基于自然语言处理方法对预处理文本数据进行关键词切分，提高了数据的结构化水平，通过TF‑IDF值计算和哈希函数映射，提高了数据处理的效率和准确性，通过并行计算和任务分发，解决了现有技术在处理大规模数据时存在的效率瓶颈问题。

技术关键词

面向大数据环境去重方法文本分布式计算框架生成标识符生成关键词自然语言关键词特征动态频率语义双向长短期记忆字词去重技术矩阵神经网络模型模块

系统为您推荐了相关专利信息

金融风险评估方法、装置、计算机程序产品及电子设备

金融风险评估方法多模态特征对齐模块控制智能体计算机程序产品

一种基于AI的健康管理方法及系统

计划健康管理方法数据身体健康管理系统

一种基于单视图和文本驱动的三维数字人体序列生成方法

序列生成方法数字人体模型网格卷积神经网络结构文本编码器

基于检索增强生成的问答方法、装置及存储介质

语义关注点问答方法切片数据更新

交互问答方法、装置、电子设备和存储介质

问答方法物体指令文本非暂态计算机可读存储介质

一种面向大数据环境的动态文档去重方法及系统

站点导航

APP 下载