一种基于大语言模型驱动的主题聚类方法与存储介质

AITNT
正文
推荐专利
一种基于大语言模型驱动的主题聚类方法与存储介质
申请号:CN202411824197
申请日期:2024-12-12
公开号:CN119782526A
公开日期:2025-04-08
类型:发明专利
摘要
本申请发明涉及人工智能自然语言处理领域,尤其涉及基于大语言模型驱动的主题聚类方法;包括步骤如下:S1)文档集合数据整理:S2)使用HDBSCAN聚类算法对所述文档集合D进行初步聚类,得到多个聚类簇{Ck};S3)利用LDA主题模型对文档主题建模,得到每篇文档的主题分布;S4)由LDA模型得到的结果调整聚类结果;S5)利用LLM进一步细化精炼每一簇的主题;S6)在生成的主题列表和数据集中的文档之间建立有效和可解释性的关联。本发明的大语言模型驱动的主题聚类系统,通过整合HDBSCAN聚类、LDA以及大语言模型,实现了文档主题的深度理解和精细聚类,为后续的信息检索、文本挖掘和知识图谱的构建等应用提供坚实的基础。
技术关键词
大语言模型 聚类方法 LDA主题模型 后验概率分布 LDA模型 贝叶斯模型 列表 聚类系统 可读存储介质 数据 EM算法 计算机 信息检索 自然语言 邻域 代表 节点
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号