摘要
本申请涉及一种知识文档去重方法和知识文档去重装置,其中,该知识文档去重方法,包括:在接收到预设的知识文档调用请求的情况下,获取数据预处理后的文本段落集;根据子句语义相似度、交集词比例以及相似词比例,在文本段落集中属于不同知识文档的各子句之间进行子句相似度计算,得到子句综合相似度;根据子句综合相似度,结合段落语义相似度,确定文本段落集中属于不同知识文档的各文本段落单元之间的段落综合相似度;根据段落综合相似度,确定不同知识文档的去重结果。其能够兼容更为细粒度的识别逻辑、提升对关键词的识别效果、最终提高文本去重的准确度。
技术关键词
文本段落
去重方法
去重装置
大语言模型
问答模型
关键词
语义向量
逻辑回归模型
模块
聚类
样本
关系
在线
离线
数据
系统为您推荐了相关专利信息
营销辅助方法
大语言模型
聊天场景
识别关键信息
订单
咨询系统
大语言模型
患者健康
数据收集模块
输出模块
动态知识图谱
大语言模型
数据分类
决策方法
确定性规则
海洋温盐
海洋遥感数据
多模态特征融合
遥感预测方法
大语言模型