摘要
本申请涉及一种重复文本的删除方法、装置、计算机设备、存储介质和程序产品。所述方法包括:对目标投标文件中的各个候选文本进行特征提取,得到各个候选文本分别对应的第一词袋向量;在根据各个候选文本分别对应的第一词袋向量和招标文件中的文本信息,确定目标候选文本为招标文件中包括的文本的情况下,并将目标候选文本从目标投标文件中删除,以得到最终投标文件。本申请通过对投标文件的文件内容进行特征提取,极大提高了投标文件中与招标文件的内容重复的文本的识别效率,从而提高了投标文件中与招标文件的内容重复的文本的删除效率。
技术关键词
文本
删除方法
计算机设备
分词
BERT模型
计算机程序产品
处理器
可读存储介质
存储器
转换器
编码器
分段
模块
系统为您推荐了相关专利信息
证据推理规则
激光陀螺仪
健康状态评估方法
状态评估装置
框架