摘要
本发明提供了一种基于语片特征项的文本相似度计算方法,旨在改进传统向量空间模型(VSM)方法采用关键词作为特征项时不能完整体现文本语义信息的问题,提高文本相似度计算准确率。本发明的实现包括三个步骤:定义并构建语片、用语片对文本形式化表示、进行文本相似度计算。具体而言,本发明提出将文本中两个词语按照语法规则进行组合,形成候选语片;用点互信息量计算两个词语的相关性,筛选出符合阈值的语片作为特征项;采用TF‑IDF法计算特征项权值,用向量夹角余弦法计算文本相似度。实验表明,将该方法用于试卷主观题计算机判卷评分时,其准确率可达85.24%,显著优于采用关键词作为特征项的传统方法,为文本相似度计算提供了一种优化方案。
技术关键词
度计算方法
文本
词语
夹角余弦
向量空间模型
规则集
语言分析
关键词
同义词
定义
试卷
分词
语义
计算机
序列
框架
关系