一种基于余弦相似度与交并比的文本相似性分析方法及系统

正文

推荐专利

申请号：CN202511128394

申请日期：2025-08-13

公开号：CN120995121A

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开一种基于余弦相似度与交并比的文本相似性分析方法及系统，涉及大数据分析技术领域，针对传统数据比对方法效率低下且准确性差的问题，采用方案包括：获取多组原始数据，提取关键字段文本并清洗过滤，筛选业务相关有效关键词，形成每组数据对应的关键词集合；每组预处理数据构成独立数据集，并唯一关联一个关键词集合；基于关键字段文本和关键词集合，通过分词构建TF‑IDF矩阵量化文本特征，计算并缓存各数据集的平均向量，用于后续语义相似度比对；结合余弦相似度和Jaccard交并比构建综合评分机制，筛选相似关联数据集，生成高相似度集合并批量存储，为可视化展示与深度分析提供数据支撑。本发明可以实现对不同数据文本的智能化匹配与关联分析。

技术关键词

文本相似性分析关键词关键字评分机制分词非结构化文本数据访问接口批量矩阵可视化工具语义层面停用词表数据比对方法大数据分析技术数据分类核心

系统为您推荐了相关专利信息

基于大模型和系列超声报告的甲状腺结节结果分析方法

甲状腺超声报告分析方法医学知识库系列医学影像分析技术

一种基于语言模型的便携式知识库问答方法及装置

知识库问答方法知识库问答装置便携式设备分词数据

基于音视频数据特征分析的广告智能识别方法及系统

音频特征调控策略智能识别方法关键词关键点

一种基于增强现实的妇产科止血模型的仿真系统

多传感器融合技术仿真系统操作者图像配准算法综合评估方法

面向Function Declaration的代码智能比对与增量更新方法及系统

增量更新方法抽象语法树代码更新上下文无关文法列表

一种基于余弦相似度与交并比的文本相似性分析方法及系统

站点导航

APP 下载