摘要
本发明公开一种基于余弦相似度与交并比的文本相似性分析方法及系统,涉及大数据分析技术领域,针对传统数据比对方法效率低下且准确性差的问题,采用方案包括:获取多组原始数据,提取关键字段文本并清洗过滤,筛选业务相关有效关键词,形成每组数据对应的关键词集合;每组预处理数据构成独立数据集,并唯一关联一个关键词集合;基于关键字段文本和关键词集合,通过分词构建TF‑IDF矩阵量化文本特征,计算并缓存各数据集的平均向量,用于后续语义相似度比对;结合余弦相似度和Jaccard交并比构建综合评分机制,筛选相似关联数据集,生成高相似度集合并批量存储,为可视化展示与深度分析提供数据支撑。本发明可以实现对不同数据文本的智能化匹配与关联分析。
技术关键词
文本相似性分析
关键词
关键字
评分机制
分词
非结构化文本
数据访问接口
批量
矩阵
可视化工具
语义层面
停用词表
数据比对方法
大数据分析技术
数据分类
核心
系统为您推荐了相关专利信息
甲状腺超声报告
分析方法
医学知识库
系列
医学影像分析技术
知识库问答方法
知识库问答装置
便携式设备
分词
数据
多传感器融合技术
仿真系统
操作者
图像配准算法
综合评估方法
增量更新方法
抽象语法树
代码更新
上下文无关文法
列表