一种面向大数据环境的动态文档去重方法及系统

AITNT
正文
推荐专利
一种面向大数据环境的动态文档去重方法及系统
申请号:CN202410846433
申请日期:2024-06-27
公开号:CN118897947A
公开日期:2024-11-05
类型:发明专利
摘要
本发明公开了一种面向大数据环境的动态文档去重方法及系统,涉及动态文档去重技术领域,包括采集原始文本数据并进行预处理,基于自然语言处理方法对预处理文本数据进行关键词切分;计算切分文本数据中每个关键词的TF‑IDF值获取频率文本数据,基于哈希函数生成关键词特征集并生成标识符;通过标识符比较各文档的相似度,构建分布式计算框架对比较过程进行并行去重处理。本发明所述方法基于自然语言处理方法对预处理文本数据进行关键词切分,提高了数据的结构化水平,通过TF‑IDF值计算和哈希函数映射,提高了数据处理的效率和准确性,通过并行计算和任务分发,解决了现有技术在处理大规模数据时存在的效率瓶颈问题。
技术关键词
面向大数据环境 去重方法 文本 分布式计算框架 生成标识符 生成关键词 自然语言 关键词特征 动态 频率 语义 双向长短期记忆 字词 去重技术 矩阵 神经网络模型 模块
系统为您推荐了相关专利信息
1
金融风险评估方法、装置、计算机程序产品及电子设备
金融风险评估方法 多模态特征 对齐模块 控制智能体 计算机程序产品
2
一种基于AI的健康管理方法及系统
计划 健康管理方法 数据 身体 健康管理系统
3
一种基于单视图和文本驱动的三维数字人体序列生成方法
序列生成方法 数字人体模型 网格 卷积神经网络结构 文本编码器
4
基于检索增强生成的问答方法、装置及存储介质
语义 关注点 问答方法 切片 数据更新
5
交互问答方法、装置、电子设备和存储介质
问答方法 物体 指令 文本 非暂态计算机可读存储介质
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号