摘要
本发明涉及一种基于TF‑IDF和词向量的文本相似度计算方法:1.获取待比较的第一文本与第二文本,经分词处理形成第一、二词集;2.利用预设TF‑IDF模型算出词集中各词语TF‑IDF值,并用预设词向量模型求得词向量;3.通过语义匹配算法找出公共词集,以及各公共词相关的左、右邻接词集等;4.将公共词及其邻接词的TF‑IDF值输入第一相似度模型算出第一相似度,再把词集的TF‑IDF值、词向量与公共词等输入第二相似度模型得出第二相似度,最后二者输入融合模型得到文本相似度。本方法综合多维度信息,精准度量文本相似程度,有效提升文本处理效率与精度。
技术关键词
文本
度计算方法
词语
语义匹配算法
分词
词向量模型
序列
同义词
频率
符号
数据
因子
精度