摘要
本申请发明涉及人工智能自然语言处理领域,尤其涉及基于大语言模型驱动的主题聚类方法;包括步骤如下:S1)文档集合数据整理:S2)使用HDBSCAN聚类算法对所述文档集合D进行初步聚类,得到多个聚类簇{Ck};S3)利用LDA主题模型对文档主题建模,得到每篇文档的主题分布;S4)由LDA模型得到的结果调整聚类结果;S5)利用LLM进一步细化精炼每一簇的主题;S6)在生成的主题列表和数据集中的文档之间建立有效和可解释性的关联。本发明的大语言模型驱动的主题聚类系统,通过整合HDBSCAN聚类、LDA以及大语言模型,实现了文档主题的深度理解和精细聚类,为后续的信息检索、文本挖掘和知识图谱的构建等应用提供坚实的基础。
技术关键词
大语言模型
聚类方法
LDA主题模型
后验概率分布
LDA模型
贝叶斯模型
列表
聚类系统
可读存储介质
数据
EM算法
计算机
信息检索
自然语言
邻域
代表
节点