一种基于TF-IDF和词向量的文本相似度计算方法

AITNT
正文
推荐专利
一种基于TF-IDF和词向量的文本相似度计算方法
申请号:CN202510211938
申请日期:2025-02-25
公开号:CN120493914A
公开日期:2025-08-15
类型:发明专利
摘要
本发明涉及一种基于TF‑IDF和词向量的文本相似度计算方法:1.获取待比较的第一文本与第二文本,经分词处理形成第一、二词集;2.利用预设TF‑IDF模型算出词集中各词语TF‑IDF值,并用预设词向量模型求得词向量;3.通过语义匹配算法找出公共词集,以及各公共词相关的左、右邻接词集等;4.将公共词及其邻接词的TF‑IDF值输入第一相似度模型算出第一相似度,再把词集的TF‑IDF值、词向量与公共词等输入第二相似度模型得出第二相似度,最后二者输入融合模型得到文本相似度。本方法综合多维度信息,精准度量文本相似程度,有效提升文本处理效率与精度。
技术关键词
文本 度计算方法 词语 语义匹配算法 分词 词向量模型 序列 同义词 频率 符号 数据 因子 精度
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号