一种文本聚类方法、装置、设备及其存储介质

AITNT
正文
推荐专利
一种文本聚类方法、装置、设备及其存储介质
申请号:CN202411072967
申请日期:2024-08-06
公开号:CN118939802A
公开日期:2024-11-12
类型:发明专利
摘要
本申请实施例属于数据处理技术领域,应用于对多源数据文本进行聚类场景中,涉及一种文本聚类方法、装置、设备及其存储介质,包括获取待聚类文本集缓存到目标数据库;记录所有常用词的最新词频概率和最新词权重;生成初始聚类标识;对所有待聚类文本条目进行分词处理;基于分词处理结果、初始聚类标识和初步判重策略,筛选出判重子集;通过最新词频概率、最新词权重和二次判重策略,计算每条待聚类文本条目与其对应判重子集中各个文本条目的重复度;根据重复度,进行文本聚类。采用先通过分词处理结果进行初步判重,之后再结合最新词频概率、最新词权重进行二次判重,从而实现了快速而准确的将文本聚类到一起。
技术关键词
条目 文本聚类方法 分词 词典 计算机可读指令 权重算法 标识 策略 文本聚类装置 词语 人机交互方式 路径规划算法 基准 可读存储介质 数据处理技术 模块 噪声数据 数值
系统为您推荐了相关专利信息
1
混合结构的多模态数据查询语言的方法及系统
元素 混合结构 多层数据结构 层级 计算机可读取存储介质
2
基于多维特征进行美术作业分析的方法及装置
美术 语义特征提取 图像文本信息 数值 特征提取单元
3
基于CAPP的电线电缆生产工艺管理系统
电线电缆 管理系统 序列 度量 匹配网络
4
一种多模态分布式存储的RDMA原语优化方法、系统及相关设备
QoS指标 机器学习模型 多模态 历史性能数据 流水线
5
目标设备的控制方法、车载终端及计算机存储介质
语音控制方法 车载终端 计算机可读指令 计算机存储介质 字段
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号