摘要
本申请公开了一种文本查重方法、车辆、计算机可读存储介质及计算机程序产品,涉及信息处理技术领域。其中,该方法包括:对待查重的输入文本进行规范化预处理,得到当前文本片段;利用目标编码模型对当前文本片段进行语义编码处理,得到查询向量;调用目标搜索引擎对应的相似度检索接口,从语义向量索引中召回与查询向量相对应的多个候选向量,其中,语义向量索引基于历史文本集和目标搜索引擎中的图索引算法构建得到;基于多级判重阈值对多个候选向量进行排序分析,得到查重结果,其中,查重结果用于表征多个候选向量对应的历史文本与输入文本之间的重复情况。本申请解决了相关技术中文本查重方法的准确性低、效率低的技术问题。
技术关键词
文本查重方法
语义向量
索引算法
编码
计算机程序产品
可读存储介质
分布特征
接口
车载处理器
信息处理技术
学习算法
参数
分词
车辆
规模
系统为您推荐了相关专利信息
分类器模型
识别方法
音频特征信息
视觉特征信息
多模态
因果结构发现方法
编码器
协议
参数
非临时性计算机可读存储介质
趋势预测方法
特征提取模型
量子态
分类器模型
生成对抗网络
交通流状态
交通流特征
动态
XGBoost模型
静态特征