摘要
本发明涉及电子数字数据处理技术领域,具体涉及基于NLP的公文数据采集分析方法及系统,包括:收集公文数据,获取标题词集合,根据预设参考时间段内公文标题词的数量特征和在公文中的位置,确定标题词的第一关键性和第二关键性,根据参考时间段内公文标题的数量和标题字数,确定公文标题词的最终关键性,进一步获取所有公文的标题关键词,获取每篇公文标题关键词的相关词,确定相关词之间的相似性,根据相关词之间的相似性和相关词的数量特征,确定公文之间的相似性,根据公文之间的相似性对公文数据进行分类。本发明对公文标题的关键词进行准确提取,提高了公文之间相似性计算的准确性,提高了公文数据分类的准确率。
技术关键词
数据采集分析方法
关键性
关键词
时间段
电子数字数据处理技术
数据采集分析系统
数据分类
处理器
计算方法
关系
存储器
算法
度量
代表
网络
系统为您推荐了相关专利信息
出行模式识别
大数据分析方法
矩阵
出行轨迹
站点