一种文本聚类方法、装置、设备及其存储介质

正文

推荐专利

申请号：CN202411072967

申请日期：2024-08-06

公开号：CN118939802A

公开日期：2024-11-12

类型：发明专利

摘要

本申请实施例属于数据处理技术领域，应用于对多源数据文本进行聚类场景中，涉及一种文本聚类方法、装置、设备及其存储介质，包括获取待聚类文本集缓存到目标数据库；记录所有常用词的最新词频概率和最新词权重；生成初始聚类标识；对所有待聚类文本条目进行分词处理；基于分词处理结果、初始聚类标识和初步判重策略，筛选出判重子集；通过最新词频概率、最新词权重和二次判重策略，计算每条待聚类文本条目与其对应判重子集中各个文本条目的重复度；根据重复度，进行文本聚类。采用先通过分词处理结果进行初步判重，之后再结合最新词频概率、最新词权重进行二次判重，从而实现了快速而准确的将文本聚类到一起。

技术关键词

条目文本聚类方法分词词典计算机可读指令权重算法标识策略文本聚类装置词语人机交互方式路径规划算法基准可读存储介质数据处理技术模块噪声数据数值

系统为您推荐了相关专利信息

混合结构的多模态数据查询语言的方法及系统

元素混合结构多层数据结构层级计算机可读取存储介质

基于多维特征进行美术作业分析的方法及装置

美术语义特征提取图像文本信息数值特征提取单元

基于CAPP的电线电缆生产工艺管理系统

电线电缆管理系统序列度量匹配网络

一种多模态分布式存储的RDMA原语优化方法、系统及相关设备

QoS指标机器学习模型多模态历史性能数据流水线

目标设备的控制方法、车载终端及计算机存储介质

语音控制方法车载终端计算机可读指令计算机存储介质字段

一种文本聚类方法、装置、设备及其存储介质

站点导航

APP 下载