摘要
本申请提供一种数据集的生成方法、装置、设备、存储介质及程序产品。该方法包括:获取与主题相关的种子词;根据种子词,在预设的未标注数据集中进行筛选,以得到第一数据集,第一数据集中包括多个与种子词相关的第一数据样本;采用聚类方式,对第一数据集进行样本扩充处理,以得到第二数据集,第二数据集中包括多个与种子词相关的第二数据样本,第二数据样本的个数大于第一数据样本的个数;采用分类方式,对第二数据集进行分类筛选处理,并迭代分类筛选处理的步骤直至预设迭代次数,以得到目标数据集,目标数据集中包括用于多个与种子词相关的目标数据样本。本申请的方法,通过对数据集进行扩充再筛选,同时提升数据集的精度和广度。
技术关键词
数据
种子
样本
分类方式
生成方法
主题
计算机执行指令
k均值聚类算法
统计语言模型
分词
可读存储介质
计算机程序产品
统计方法
处理器通信
生成装置
自然语言
语句
终端设备