摘要
本发明实施例公开一种训练文本数据获取方法、装置、电子设备及存储介质,该方法包括:建立各个候选文档对应的文本向量,并绘制包括各个文本向量的超立方体;将超立方体平均划分为多个子立方体;确定进行聚类的簇数量并基于簇数量和各个子立方体内文本向量的数量确定初始质心;以及基于簇数量以及初始质心对各个文本向量进行聚类得到多个聚类结果簇,并基于多个聚类结果簇确定训练文本数据。本发明实施例能够生成专业性强且质量高的训练文本数据。
技术关键词
训练文本数据
立方体
聚类
轮廓系数
电子设备
处理器
可读存储介质
模块
存储器
极值
程序
计算机
算法
误差
频率