一种模型训练数据处理方法、系统与电子设备

AITNT
正文
推荐专利
一种模型训练数据处理方法、系统与电子设备
申请号:CN202411623055
申请日期:2024-11-14
公开号:CN119577275A
公开日期:2025-03-07
类型:发明专利
摘要
本发明涉及电数字数据处理技术领域,具体为一种模型训练数据处理方法、系统与电子设备。首先通过HTTP响应头确定MIME类型进行初步分类,确保数据归类于文本、图片、音频和视频的一级分类目录中,对于缺失MIME类型的数据,使用类型加权评分方法辅助分类,提升了分类的准确性;接着,通过现有数据集提取一级分类数据的二级分类标签,结合零样本学习算法自动生成二级分类结果,并将其存入相应的二级目录中,进一步细化数据类别;最后,通过遍历二级分类目录检查数据量是否低于生成阈值,自动触发数据扩增,平衡各类别样本数量,确保数据的均衡性和代表性。本发明有效地实现了多层次自动分类和数据扩增,提升了模型训练数据处理效率和处理质量。
技术关键词
训练数据处理方法 零样本学习算法 高维特征向量 互联网 评分方法 生成自然语言 文本 电数字数据处理技术 标签 音频 图片 目录 数据分类 视频 文件扩展名 电子设备 数据处理系统 预训练模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号