摘要
本发明公开了一种文本查重方法、系统及存储介质,属于文本信息处理技术领域。方法包括:S1:管理员根据实验项目自定义本次实验报告模版;S2:用户根据实验报告模版生成实验报告并上传;S3:系统根据查重标识提取实验报告中需要查重的文本内容,并使用算法进行查重得到若干相似片段结果;S4:使用术语库对相似片段结果进行筛选得到最终相似片段;S5:定位最终相似片段,进行突出显示并计算重复率,生成最终的查重报告。能够对文本中有多个局部相似的片段的情况有更好的检测效果;可动态设置查重区域,并且通过添加术语库,避开相关术语的查重,更好降低重复率的误判。
技术关键词
文本查重方法
术语
模版
文本信息处理技术
计算机可执行指令
词语检测
分词
查重系统
自定义模块
词向量模型
可读存储介质
报告
中文文本
项目
防伪标识
算法
数据
合规性
系统为您推荐了相关专利信息
工程设计方法
数据收集模块
计算机可执行指令
工程设计系统
电力行业设备
人工智能技术
术语
关系型数据库
构建系统
数据采集层
地址偏移量
地址映射
计算机可执行指令
模块
电子设备
装配式建筑结构
减振结构
智能阻尼器
振动特征参数
减振系统