一种数据集扩充方法及装置

AITNT
正文
推荐专利
一种数据集扩充方法及装置
申请号:CN202410830079
申请日期:2024-06-25
公开号:CN118607668B
公开日期:2025-04-18
类型:发明专利
摘要
本公开提供了一种数据集扩充方法及装置,属于数据处理技术领域,该方法包括:基于第一语言模型生成第一样本数据;将第一样本数据添加至包含有第二样本数据的数据集中,从数据集中筛选出第三样本数据;第二样本数据为真实数据,第三样本数据为第一样本数据中与真实数据的关联度小于第一阈值的数据;基于第四样本数据训练第一语言模型;第四样本数据为数据集中除第三样本数据之外的数据;返回执行基于第一语言模型生成第一样本数据的步骤,直至满足设定条件,得到扩充后的数据集。本公开提供的一种数据集扩充方法及装置能够淘汰低质量样本,优化生成过程,有效保留更加丰富和高质量的样本。
技术关键词
数据集扩充方法 样本 语义 信息熵 扩充装置 可读存储介质 数据处理技术 处理器 模块 文本 存储器 计算机 电子设备 图像
系统为您推荐了相关专利信息
1
一种人脸面部微表情检测方法及系统
滑动窗口 人脸面部特征 面部微表情 图像 像素
2
一种IT系统分类模型的构建方法、装置、电子设备和存储介质
数据 电子设备 标签 聚类算法 朴素贝叶斯分类方法
3
基于大数据的数字经济数据采集方法及系统
数据采集方法 大数据 网络 意图 云端
4
图像语义传输方法、装置、设备及存储介质
转换器 编码器 传输方法 索引 解码器
5
一种融合细粒度局部语义和全局语义的多模态图文检索方法
图文检索方法 语义 文本 嵌入特征 多头注意力机制
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号