摘要
本发明涉及电数字数据处理技术领域,具体为一种模型训练数据处理方法、系统与电子设备。首先通过HTTP响应头确定MIME类型进行初步分类,确保数据归类于文本、图片、音频和视频的一级分类目录中,对于缺失MIME类型的数据,使用类型加权评分方法辅助分类,提升了分类的准确性;接着,通过现有数据集提取一级分类数据的二级分类标签,结合零样本学习算法自动生成二级分类结果,并将其存入相应的二级目录中,进一步细化数据类别;最后,通过遍历二级分类目录检查数据量是否低于生成阈值,自动触发数据扩增,平衡各类别样本数量,确保数据的均衡性和代表性。本发明有效地实现了多层次自动分类和数据扩增,提升了模型训练数据处理效率和处理质量。
技术关键词
训练数据处理方法
零样本学习算法
高维特征向量
互联网
评分方法
生成自然语言
文本
电数字数据处理技术
标签
音频
图片
目录
数据分类
视频
文件扩展名
电子设备
数据处理系统
预训练模型