一种基于余弦相似度与交并比的文本相似性分析方法及系统

AITNT
正文
推荐专利
一种基于余弦相似度与交并比的文本相似性分析方法及系统
申请号:CN202511128394
申请日期:2025-08-13
公开号:CN120995121A
公开日期:2025-11-21
类型:发明专利
摘要
本发明公开一种基于余弦相似度与交并比的文本相似性分析方法及系统,涉及大数据分析技术领域,针对传统数据比对方法效率低下且准确性差的问题,采用方案包括:获取多组原始数据,提取关键字段文本并清洗过滤,筛选业务相关有效关键词,形成每组数据对应的关键词集合;每组预处理数据构成独立数据集,并唯一关联一个关键词集合;基于关键字段文本和关键词集合,通过分词构建TF‑IDF矩阵量化文本特征,计算并缓存各数据集的平均向量,用于后续语义相似度比对;结合余弦相似度和Jaccard交并比构建综合评分机制,筛选相似关联数据集,生成高相似度集合并批量存储,为可视化展示与深度分析提供数据支撑。本发明可以实现对不同数据文本的智能化匹配与关联分析。
技术关键词
文本相似性分析 关键词 关键字 评分机制 分词 非结构化文本 数据访问接口 批量 矩阵 可视化工具 语义层面 停用词表 数据比对方法 大数据分析技术 数据分类 核心
系统为您推荐了相关专利信息
1
基于大模型和系列超声报告的甲状腺结节结果分析方法
甲状腺超声报告 分析方法 医学知识库 系列 医学影像分析技术
2
一种基于语言模型的便携式知识库问答方法及装置
知识库问答方法 知识库问答装置 便携式设备 分词 数据
3
基于音视频数据特征分析的广告智能识别方法及系统
音频特征 调控策略 智能识别方法 关键词 关键点
4
一种基于增强现实的妇产科止血模型的仿真系统
多传感器融合技术 仿真系统 操作者 图像配准算法 综合评估方法
5
面向Function Declaration的代码智能比对与增量更新方法及系统
增量更新方法 抽象语法树 代码更新 上下文无关文法 列表
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号