一种LDA主题模型识别方法

正文

推荐专利

一种LDA主题模型识别方法

申请号：CN202411124421

申请日期：2024-08-15

公开号：CN119149733A

公开日期：2024-12-17

类型：发明专利

摘要

本发明涉及一种LDA主题模型识别方法，包括以下步骤：S1、利用Python库采集档案的高频搜索关键词，对采集到的数据进行预处理，包括去除无用的标点和特殊符号，只提取中文来，并进行文本分词，同时采用爬虫技术深入互联网或特定数据库，收集更为丰富和综合的档案数据，引入自然语言处理(NLP)技术，进行更深层次的语义理解和信息提炼，采用词性标注过滤非关键词汇，提高数据的质量和分析的精度。本发明基于LDA主题模型，采用多种采样算法为训练数据分配类别，当达到收敛后，统计待分类图书所属于每个类别的得分，据此获得待分类档案所属类别，针对传统档案格式不规范，命名不规范，各级组织存在档案共享访问困难等缺陷，具有显著提升。

技术关键词

LDA主题模型 LDA模型识别方法可视化展示系统关键词可视化工具指标动态主题模型文本并行计算技术机器学习算法分词算法数据爬虫技术一致性测试机制深度学习技术

一种LDA主题模型识别方法

站点导航

APP 下载