一种基于TF-IDF和词向量的文本相似度计算方法

正文

推荐专利

申请号：CN202510211938

申请日期：2025-02-25

公开号：CN120493914A

公开日期：2025-08-15

类型：发明专利

摘要

本发明涉及一种基于TF‑IDF和词向量的文本相似度计算方法：1.获取待比较的第一文本与第二文本，经分词处理形成第一、二词集；2.利用预设TF‑IDF模型算出词集中各词语TF‑IDF值，并用预设词向量模型求得词向量；3.通过语义匹配算法找出公共词集，以及各公共词相关的左、右邻接词集等；4.将公共词及其邻接词的TF‑IDF值输入第一相似度模型算出第一相似度，再把词集的TF‑IDF值、词向量与公共词等输入第二相似度模型得出第二相似度，最后二者输入融合模型得到文本相似度。本方法综合多维度信息，精准度量文本相似程度，有效提升文本处理效率与精度。

技术关键词

文本度计算方法词语语义匹配算法分词词向量模型序列同义词频率符号数据因子精度

一种基于TF-IDF和词向量的文本相似度计算方法

站点导航

APP 下载