一种文本聚类的方法和装置

正文

推荐专利

一种文本聚类的方法和装置

申请号：CN202411035357

申请日期：2024-07-30

公开号：CN118626652A

公开日期：2024-09-10

类型：发明专利

摘要

本发明公开了一种文本聚类的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：分别计算文本集中各个文本之间的编辑距离，得到多个第一文本组及其对应的第一组名；将各个第一文本组对应的第一组名进行分词，得到分词集；分别计算分词集中各个分词的编辑距离，进而根据编辑距离对各个分词进行聚类，得到多个分词组；对于每个分词组，查找出分词组对应的各个第一组名，从分词组对应的各个第一组名中提取出第二组名，并将分词组对应的各个第一组名对应的第一文本组聚合为第二文本组。该实施方式实现了低成本、准确的文本聚类，对表征第一文本组语义的第一组名进行进一步的细粒度分词和聚类，在提升聚类准确性的前提下，减少计算量。

技术关键词

文本分词编辑语义聚类深度学习模型移动电子设备处理器存储装置程序模块模板标识低成本计算机终端介质关系

系统为您推荐了相关专利信息

基于图增强和LLM微调的Text-to-Cypher语义解析模型生成方法

模型生成方法三元组图谱实体摘要

自动驾驶异常案例挖掘方法、系统、介质和设备

点云挖掘方法多模态语义分割模型数据

一种基于LLM的数据生成方法和装置

样本流水线数据生成方法模板语义

基于指令集优化的伦理审查大模型的构建方法、设备

知识点大语言模型指令数据驱动方法文本挖掘技术

基于大模型的校园智能客服系统及处理方法

答案大语言模型校园智能客服系统语义

一种文本聚类的方法和装置

站点导航

APP 下载