一种基于语片特征项的文本相似度计算方法

AITNT
正文
推荐专利
一种基于语片特征项的文本相似度计算方法
申请号:CN202510242245
申请日期:2025-03-03
公开号:CN120146024A
公开日期:2025-06-13
类型:发明专利
摘要
本发明提供了一种基于语片特征项的文本相似度计算方法,旨在改进传统向量空间模型(VSM)方法采用关键词作为特征项时不能完整体现文本语义信息的问题,提高文本相似度计算准确率。本发明的实现包括三个步骤:定义并构建语片、用语片对文本形式化表示、进行文本相似度计算。具体而言,本发明提出将文本中两个词语按照语法规则进行组合,形成候选语片;用点互信息量计算两个词语的相关性,筛选出符合阈值的语片作为特征项;采用TF‑IDF法计算特征项权值,用向量夹角余弦法计算文本相似度。实验表明,将该方法用于试卷主观题计算机判卷评分时,其准确率可达85.24%,显著优于采用关键词作为特征项的传统方法,为文本相似度计算提供了一种优化方案。
技术关键词
度计算方法 文本 词语 夹角余弦 向量空间模型 规则集 语言分析 关键词 同义词 定义 试卷 分词 语义 计算机 序列 框架 关系
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号