一种训练文本数据获取方法、装置、电子设备及存储介质

AITNT
正文
推荐专利
一种训练文本数据获取方法、装置、电子设备及存储介质
申请号:CN202411935419
申请日期:2024-12-26
公开号:CN119886129B
公开日期:2025-11-04
类型:发明专利
摘要
本发明实施例公开一种训练文本数据获取方法、装置、电子设备及存储介质,该方法包括:建立各个候选文档对应的文本向量,并绘制包括各个文本向量的超立方体;将超立方体平均划分为多个子立方体;确定进行聚类的簇数量并基于簇数量和各个子立方体内文本向量的数量确定初始质心;以及基于簇数量以及初始质心对各个文本向量进行聚类得到多个聚类结果簇,并基于多个聚类结果簇确定训练文本数据。本发明实施例能够生成专业性强且质量高的训练文本数据。
技术关键词
训练文本数据 立方体 聚类 轮廓系数 电子设备 处理器 可读存储介质 模块 存储器 极值 程序 计算机 算法 误差 频率
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号