摘要
本发明公开了一种多层级批量文本并行去重方法、系统、设备及存储介质,方法包括将文本数据进行预处理,并分别在篇章级、段落级、语句级进行敏感哈希的相似度文本表征和内容去重,在去重过程加入优先级得分和排序规则排除去重随机性;内容去重时根据敏感哈希的相似度文本表征创建图结构,在图结构上利用并查集的合并与分离建立多个连通分量,在每个连通分量内部采用动态哈希阈值选择目标文本予以保留;在上述过程中,针对篇章级、段落级和语句级文本分别构建数据帧对象,分配唯一标识,采用分块延迟计算与指针存储的并行去重策略优化时间复杂度与所需的内存空间。本发明可以提升去重的速度和准确度,同时解决大批量去重面临的内存短缺难题。
技术关键词
文本
去重方法
语句
层级
去重系统
信息熵
局部敏感哈希算法
编码
批量
分块
动态
数据
标识
对象
指针
复杂度
内存
节点
策略
系统为您推荐了相关专利信息
分区
生成控制器
移动存储介质
生成方法
测试环境参数
多模态
残差神经网络
深度学习模型
工业生产检测技术
相机
模型训练方法
大语言模型
关系
多模态融合技术
数据
患者健康数据
管理方法
强化学习算法
风险
语义角色标注
XGBoost模型
混合识别方法
多模型协同
CRF模型
SMOTE算法