多层级批量文本并行去重方法、系统、设备及存储介质

AITNT
正文
推荐专利
多层级批量文本并行去重方法、系统、设备及存储介质
申请号:CN202411373333
申请日期:2024-09-29
公开号:CN119203983A
公开日期:2024-12-27
类型:发明专利
摘要
本发明公开了一种多层级批量文本并行去重方法、系统、设备及存储介质,方法包括将文本数据进行预处理,并分别在篇章级、段落级、语句级进行敏感哈希的相似度文本表征和内容去重,在去重过程加入优先级得分和排序规则排除去重随机性;内容去重时根据敏感哈希的相似度文本表征创建图结构,在图结构上利用并查集的合并与分离建立多个连通分量,在每个连通分量内部采用动态哈希阈值选择目标文本予以保留;在上述过程中,针对篇章级、段落级和语句级文本分别构建数据帧对象,分配唯一标识,采用分块延迟计算与指针存储的并行去重策略优化时间复杂度与所需的内存空间。本发明可以提升去重的速度和准确度,同时解决大批量去重面临的内存短缺难题。
技术关键词
文本 去重方法 语句 层级 去重系统 信息熵 局部敏感哈希算法 编码 批量 分块 动态 数据 标识 对象 指针 复杂度 内存 节点 策略
系统为您推荐了相关专利信息
1
用于控制器升级包的生成及测试方法、装置、电子设备
分区 生成控制器 移动存储介质 生成方法 测试环境参数
2
一种基于多模态模型的工业生产检测方法及系统
多模态 残差神经网络 深度学习模型 工业生产检测技术 相机
3
用于用户推荐的模型训练方法、装置、设备和介质
模型训练方法 大语言模型 关系 多模态融合技术 数据
4
一种患者随访管理方法及系统
患者健康数据 管理方法 强化学习算法 风险 语义角色标注
5
多模型协同的企业实体混合识别方法及装置
XGBoost模型 混合识别方法 多模型协同 CRF模型 SMOTE算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号