摘要
本发明公开了一种真实场景中的海量文本查重方法、系统、设备及存储介质,属于文本查重技术领域,解决现有文本查重算法在面对真实场景下海量文本数据时查重速度较慢并且缺乏对语义查重的技术问题。方法为根据真实场景建立包含向量库和文字库的文档库;选择向量化模型并进行微调训练优化得到向量化处理模型;获取用于校验查重的全部文档并生成查重数据库;获得需要被查重的文档并生成待查重数据;将待查重数据和查重数据库依次进行向量相似度比对、相同字数筛选和连续相同字数筛选,获得最终查重命中的文本内容。可以兼顾语义级和字符级的多重查验,并有效提升查重在海量文本中的计算效率。
技术关键词
文本查重方法
场景
海量文本数据
查重系统
模型训练模块
处理器
计算机设备
数值
字符
语义
可读存储介质
索引
存储器
逻辑
关系
算法
系统为您推荐了相关专利信息
影像
鉴别模块
生成对抗网络模型
模型训练模块
重构
海洋天然气水合物
模拟评估方法
甲烷
站点
海洋地质研究
治理控制方法
废水治理设备
设备运行参数
水质
生成控制指令