摘要
本发明提供了一种文章查重方法、装置、设备、可读存储介质和程序产品,涉及自然语言处理技术领域,方法包括:在确定存在目标词汇的情况下,根据目标词汇,确定待查重文本中各个关键词对应的权重;目标词汇为待查重文本中出现频率大于或等于第一阈值且文本检索库中出现频率小于或等于第二阈值的词汇;基于待查重文本中各个关键词和关键词对应的权重,获取待查重文本与各检索文本之间的第一格式相似度、第一语句相似度和第一主题相似度;对第一格式相似度、第一语句相似度和第一主题相似度进行加权求和,得到待查重文本分别与各检索文本之间的第一相似度;根据第一相似度,从检索文本集合中筛选得到查重结果。本发明实施例的查重结果准确性高。
技术关键词
文章查重方法
文本
关键词
主题特征
LDA模型
格式
可读存储介质
语句
语义
自然语言
查重装置
频率
处理器
计算机程序产品
网络设备
节点
系统为您推荐了相关专利信息
医学图像分类方法
注意力模型
图像块
图像编码器
文本编码器
辅助诊断系统
文本特征向量
图像特征向量
多模态
特征融合网络