摘要
本申请公开了一种文本查重方法、装置、电子设备及存储介质,属于信息处理技术领域,用以解决相关的文本查重技术,存在查重的准确率低的问题。所述方法包括:获取第一文本和第二文本;其中,所述第一文本为待查重的文本;所述第二文本为用于对所述第一文本进行查重的文本;获取历史文本的多个目标关键词簇;其中,所述目标关键词簇中的目标关键词表征所述历史文本的领域特征;通过预训练的领域相似度模型,根据多个所述目标关键词簇、所述第一文本和所述第二文本,进行领域相似度计算,得到所述第一文本与所述第二文本的领域相似度结果;基于所述领域相似度结果,确定查重结果。
技术关键词
关键词
文本查重方法
语义
层次聚类算法
查重装置
注意力
计算机可执行指令
信息处理技术
电子设备
矩阵
大语言模型
计算机程序产品
处理器
模块
存储器