摘要
本发明涉及文本查重技术领域,公开了一种产品标准文档的查重方法、装置及设备,方法包括:对于每一相关产品标准文档,对相关产品标准文档的多个部分进行文本提取,得到相关部分文本;基于每一相关产品标准文档的相关部分文本,构建多个查重数据库;对目标产品标准文档的多个部分进行文本提取,得到目标部分文本;采用多个查重数据库,基于目标产品标准文档的目标部分文本进行查重,得到查重结果。本发明通过分部分处理,将查重重点放在关键部分,显著提高查重的针对性,采用多个查重数据库的设计,能够更精确地识别产品标准文档之间的核心差异,并且整个查重过程根据产品标准文档的特点进行设计,确保能够满足实际需求,同时提高查重准确性。
技术关键词
文本
术语
摘要
定义
词向量模型
索引表
指标
分词
精确地识别
封面
存储器
处理器
计算机设备
模块
指令
报告
核心
系统为您推荐了相关专利信息
关键词
主题
文献推荐方法
计算机可执行指令
分词
多粒度特征
医疗文本数据
字符
预训练语言模型
交叉注意力机制
流量检测方法
高维特征向量
重构误差
解码器模型
分类器