摘要
本发明公开了一种面向大数据环境的动态文档去重方法及系统,涉及动态文档去重技术领域,包括采集原始文本数据并进行预处理,基于自然语言处理方法对预处理文本数据进行关键词切分;计算切分文本数据中每个关键词的TF‑IDF值获取频率文本数据,基于哈希函数生成关键词特征集并生成标识符;通过标识符比较各文档的相似度,构建分布式计算框架对比较过程进行并行去重处理。本发明所述方法基于自然语言处理方法对预处理文本数据进行关键词切分,提高了数据的结构化水平,通过TF‑IDF值计算和哈希函数映射,提高了数据处理的效率和准确性,通过并行计算和任务分发,解决了现有技术在处理大规模数据时存在的效率瓶颈问题。
技术关键词
面向大数据环境
去重方法
文本
分布式计算框架
生成标识符
生成关键词
自然语言
关键词特征
动态
频率
语义
双向长短期记忆
字词
去重技术
矩阵
神经网络模型
模块
系统为您推荐了相关专利信息
金融风险评估方法
多模态特征
对齐模块
控制智能体
计算机程序产品
序列生成方法
数字人体模型
网格
卷积神经网络结构
文本编码器
问答方法
物体
指令
文本
非暂态计算机可读存储介质