摘要
本公开提供了一种数据集扩充方法及装置,属于数据处理技术领域,该方法包括:基于第一语言模型生成第一样本数据;将第一样本数据添加至包含有第二样本数据的数据集中,从数据集中筛选出第三样本数据;第二样本数据为真实数据,第三样本数据为第一样本数据中与真实数据的关联度小于第一阈值的数据;基于第四样本数据训练第一语言模型;第四样本数据为数据集中除第三样本数据之外的数据;返回执行基于第一语言模型生成第一样本数据的步骤,直至满足设定条件,得到扩充后的数据集。本公开提供的一种数据集扩充方法及装置能够淘汰低质量样本,优化生成过程,有效保留更加丰富和高质量的样本。
技术关键词
数据集扩充方法
样本
语义
信息熵
扩充装置
可读存储介质
数据处理技术
处理器
模块
文本
存储器
计算机
电子设备
图像
系统为您推荐了相关专利信息
数据
电子设备
标签
聚类算法
朴素贝叶斯分类方法
图文检索方法
语义
文本
嵌入特征
多头注意力机制