摘要
本发明公开了一种基于大语言模型的短文本聚类方法和装置,属于自然语言处理技术领域,包括:将短文本转换为向量表示,通过聚类算法对向量表示进行初步聚类得到初始类别;对每个初始类别中所对应的所有短文本,使用大语言模型生成摘要并根据摘要生成用于概括文本核心含义的多个主题标题分别作为子标题,将多个子标题输入大语言模型中进行主题合并得到一个父标题,将父标题和子标题构建为层级化主题体系;大语言模型根据层级化主题体系将待分类的短文本分配到一个或多个类别以完成短文本聚类;对短文本聚类的结果进行质量评估和错误模式分析以优化聚类算法和大语言模型。本发明能够实现短文本的主题自动发现和分类,提高了分类的准确性和效率。
技术关键词
大语言模型
主题
文本
层级
摘要
语义分析能力
执行聚类算法
轮廓系数
模块
树状结构
滑动窗口
自然语言
核心
动态
标签
编码
系统为您推荐了相关专利信息
变压器缺陷
知识抽取方法
三元组
大语言模型
微调方法
标书生成方法
关键词
企业知识库
数据
标书生成系统
视频生成模型
模型训练方法
视频生成方法
文本
视频采集设备