一种基于语片特征项的文本相似度计算方法

正文

推荐专利

一种基于语片特征项的文本相似度计算方法

申请号：CN202510242245

申请日期：2025-03-03

公开号：CN120146024A

公开日期：2025-06-13

类型：发明专利

摘要

本发明提供了一种基于语片特征项的文本相似度计算方法，旨在改进传统向量空间模型(VSM)方法采用关键词作为特征项时不能完整体现文本语义信息的问题，提高文本相似度计算准确率。本发明的实现包括三个步骤：定义并构建语片、用语片对文本形式化表示、进行文本相似度计算。具体而言，本发明提出将文本中两个词语按照语法规则进行组合，形成候选语片；用点互信息量计算两个词语的相关性，筛选出符合阈值的语片作为特征项；采用TF‑IDF法计算特征项权值，用向量夹角余弦法计算文本相似度。实验表明，将该方法用于试卷主观题计算机判卷评分时，其准确率可达85.24％，显著优于采用关键词作为特征项的传统方法，为文本相似度计算提供了一种优化方案。

技术关键词

度计算方法文本词语夹角余弦向量空间模型规则集语言分析关键词同义词定义试卷分词语义计算机序列框架关系

一种基于语片特征项的文本相似度计算方法

站点导航

APP 下载