摘要
本发明涉及文本处理领域,公开了一种基于NLP的文本相似度分析方法及系统。包括:建立标准词库;将标准词库处理为标准特征向量集;分别对第一文本和第二文本进行文本处理,得到第一特征向量序列和第二特征向量序列;利用标准特征向量集对第一特征向量序列和第二特征向量序列进行特征向量替换和机器编码,得到第一编码序列和第二编码序列;提取第一编码序列与第二编码序列的公共子序列;分别在第一编码序列和第二编码序列中对公共子序列进行位置标记;根据位置标记获取第一文本相似度和第二文本相似度。本发明结合自然语言处理方法进行文本相似度检测,可提高检测结果的准确率,并且通过检测结果还能获得相似片段在原始文本中的位置。
技术关键词
文本特征向量
度分析方法
Pearson相关系数
序列
自由端
标记
停用词表
脉冲
编码模块
分析系统
自然语言
关键词
爬虫
摘要
语义
波形
网络
系统为您推荐了相关专利信息
过滤方法
径向基函数网络
知识图谱构建
门控循环单元
实体