一种LDA主题模型识别方法

AITNT
正文
推荐专利
一种LDA主题模型识别方法
申请号:CN202411124421
申请日期:2024-08-15
公开号:CN119149733A
公开日期:2024-12-17
类型:发明专利
摘要
本发明涉及一种LDA主题模型识别方法,包括以下步骤:S1、利用Python库采集档案的高频搜索关键词,对采集到的数据进行预处理,包括去除无用的标点和特殊符号,只提取中文来,并进行文本分词,同时采用爬虫技术深入互联网或特定数据库,收集更为丰富和综合的档案数据,引入自然语言处理(NLP)技术,进行更深层次的语义理解和信息提炼,采用词性标注过滤非关键词汇,提高数据的质量和分析的精度。本发明基于LDA主题模型,采用多种采样算法为训练数据分配类别,当达到收敛后,统计待分类图书所属于每个类别的得分,据此获得待分类档案所属类别,针对传统档案格式不规范,命名不规范,各级组织存在档案共享访问困难等缺陷,具有显著提升。
技术关键词
LDA主题模型 LDA模型 识别方法 可视化展示系统 关键词 可视化工具 指标 动态主题模型 文本 并行计算技术 机器学习算法 分词算法 数据 爬虫技术 一致性测试 机制 深度学习技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号