一种基于大语言模型驱动的主题聚类方法与存储介质

正文

推荐专利

申请号：CN202411824197

申请日期：2024-12-12

公开号：CN119782526A

公开日期：2025-04-08

类型：发明专利

摘要

本申请发明涉及人工智能自然语言处理领域，尤其涉及基于大语言模型驱动的主题聚类方法；包括步骤如下：S1)文档集合数据整理：S2)使用HDBSCAN聚类算法对所述文档集合D进行初步聚类，得到多个聚类簇{Ck}；S3)利用LDA主题模型对文档主题建模，得到每篇文档的主题分布；S4)由LDA模型得到的结果调整聚类结果；S5)利用LLM进一步细化精炼每一簇的主题；S6)在生成的主题列表和数据集中的文档之间建立有效和可解释性的关联。本发明的大语言模型驱动的主题聚类系统，通过整合HDBSCAN聚类、LDA以及大语言模型，实现了文档主题的深度理解和精细聚类，为后续的信息检索、文本挖掘和知识图谱的构建等应用提供坚实的基础。

技术关键词

大语言模型聚类方法 LDA主题模型后验概率分布 LDA模型贝叶斯模型列表聚类系统可读存储介质数据 EM算法计算机信息检索自然语言邻域代表节点

一种基于大语言模型驱动的主题聚类方法与存储介质

站点导航

APP 下载