一种数据集扩充方法及装置

正文

推荐专利

一种数据集扩充方法及装置

申请号：CN202410830079

申请日期：2024-06-25

公开号：CN118607668B

公开日期：2025-04-18

类型：发明专利

摘要

本公开提供了一种数据集扩充方法及装置，属于数据处理技术领域，该方法包括：基于第一语言模型生成第一样本数据；将第一样本数据添加至包含有第二样本数据的数据集中，从数据集中筛选出第三样本数据；第二样本数据为真实数据，第三样本数据为第一样本数据中与真实数据的关联度小于第一阈值的数据；基于第四样本数据训练第一语言模型；第四样本数据为数据集中除第三样本数据之外的数据；返回执行基于第一语言模型生成第一样本数据的步骤，直至满足设定条件，得到扩充后的数据集。本公开提供的一种数据集扩充方法及装置能够淘汰低质量样本，优化生成过程，有效保留更加丰富和高质量的样本。

技术关键词

数据集扩充方法样本语义信息熵扩充装置可读存储介质数据处理技术处理器模块文本存储器计算机电子设备图像

系统为您推荐了相关专利信息

一种人脸面部微表情检测方法及系统

滑动窗口人脸面部特征面部微表情图像像素

一种IT系统分类模型的构建方法、装置、电子设备和存储介质

数据电子设备标签聚类算法朴素贝叶斯分类方法

基于大数据的数字经济数据采集方法及系统

数据采集方法大数据网络意图云端

图像语义传输方法、装置、设备及存储介质

转换器编码器传输方法索引解码器

一种融合细粒度局部语义和全局语义的多模态图文检索方法

图文检索方法语义文本嵌入特征多头注意力机制

一种数据集扩充方法及装置

站点导航

APP 下载