摘要
本申请实施例属于数据处理技术领域,应用于对多源数据文本进行聚类场景中,涉及一种文本聚类方法、装置、设备及其存储介质,包括获取待聚类文本集缓存到目标数据库;记录所有常用词的最新词频概率和最新词权重;生成初始聚类标识;对所有待聚类文本条目进行分词处理;基于分词处理结果、初始聚类标识和初步判重策略,筛选出判重子集;通过最新词频概率、最新词权重和二次判重策略,计算每条待聚类文本条目与其对应判重子集中各个文本条目的重复度;根据重复度,进行文本聚类。采用先通过分词处理结果进行初步判重,之后再结合最新词频概率、最新词权重进行二次判重,从而实现了快速而准确的将文本聚类到一起。
技术关键词
条目
文本聚类方法
分词
词典
计算机可读指令
权重算法
标识
策略
文本聚类装置
词语
人机交互方式
路径规划算法
基准
可读存储介质
数据处理技术
模块
噪声数据
数值
系统为您推荐了相关专利信息
元素
混合结构
多层数据结构
层级
计算机可读取存储介质
美术
语义特征提取
图像文本信息
数值
特征提取单元
QoS指标
机器学习模型
多模态
历史性能数据
流水线
语音控制方法
车载终端
计算机可读指令
计算机存储介质
字段