摘要
本发明属于自然语言处理领域,具体涉及了一种用于学术不端文献检测的方法和装置,旨在解决现有技术应对深度改写的识别及区分文本关键与非关键内容重复方面存在不足的问题。本发明方法包括:获取查询语义特征和版式特征;对查询语义特征在多维度语义特征索引库中进行语义相似检索,并分别对检索结果中的相似段落ID和相似文献ID进行加权计数并排序,获得相似排序结果;计算语义特征相似度;确定版式相似度;基于语义特征相似度和\或版式相似度对相似排序结果进行重排。本发明通过结构化提取各类特征分别进行特征检索,融合方法计算相似度,提高文本深度修改后语义重复的检测效果、区分关键内容与非关键内容语义重复,同时提高召回率与准确率。
技术关键词
语义特征
融合语义
特征提取模型
链路
逻辑
索引
关键词
摘要
文本
序列
特征提取模块
融合方法
自然语言
数值
论文
命令
参数
系统为您推荐了相关专利信息
智能语义识别
情感分析模型
广度优先搜索
判断文本情感
知识图谱框架
多功能芯片
多层天线
吸波材料
SMP连接器
绝缘子
电力系统蓄电池组
巡检方法
待测电池
交流阻抗测试
样本