数据集的生成方法、装置、设备、存储介质及程序产品

AITNT
正文
推荐专利
数据集的生成方法、装置、设备、存储介质及程序产品
申请号:CN202411815043
申请日期:2024-12-10
公开号:CN119646225A
公开日期:2025-03-18
类型:发明专利
摘要
本申请提供一种数据集的生成方法、装置、设备、存储介质及程序产品。该方法包括:获取与主题相关的种子词;根据种子词,在预设的未标注数据集中进行筛选,以得到第一数据集,第一数据集中包括多个与种子词相关的第一数据样本;采用聚类方式,对第一数据集进行样本扩充处理,以得到第二数据集,第二数据集中包括多个与种子词相关的第二数据样本,第二数据样本的个数大于第一数据样本的个数;采用分类方式,对第二数据集进行分类筛选处理,并迭代分类筛选处理的步骤直至预设迭代次数,以得到目标数据集,目标数据集中包括用于多个与种子词相关的目标数据样本。本申请的方法,通过对数据集进行扩充再筛选,同时提升数据集的精度和广度。
技术关键词
数据 种子 样本 分类方式 生成方法 主题 计算机执行指令 k均值聚类算法 统计语言模型 分词 可读存储介质 计算机程序产品 统计方法 处理器通信 生成装置 自然语言 语句 终端设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号