摘要
本申请公开了一种文本去重方法及相关装置。该文本去重方法包括:分别对当前源计算节点中的各文本进行一次编码,得到各文本的文本编码值;将各文本的文本编码值划分为若干类编码集合,其中,同一类编码集合内各文本编码值之间的相似度,高于不同类编码集合间不同文本编码值的相似度;针对各类编码集合,对当前源计算节点中编码集合对应的文本进行去重,其中,需去重的文本是基于需去重的文本与所在编码集合中的其他文本的文本编码值之间的相似度确定的。上述方案,能够提升去重效率。
技术关键词
节点
文本去重方法
通信系统
通知
模型预训练
组合模块
编码模块
处理器
可读存储介质
程序
指令
存储器
电子设备
格式
计算机