摘要
本发明公开了一种高质量大模型训练数据的制作系统及方法,系统包括数据集管理模块、数据标注模块、敏感词库模块、数据处理模块、数据分析模块,方法步骤为S1:定义元数据;S2:导入数据;S3:转换数据格式;S4:存储数据;S5:处理数据;S6,分析数据。本发明基于前沿深度学习方法,充分利用开源技术制定大模型的训练数据的标准、规范,解决数据规范问题;建立数据收集、过滤、整理、存储的数据管道,提升数据处理效率;完善数据质量评估,以收集企业核心数据。
技术关键词
数据处理模块
数据分析模块
MongoDB数据库
语言模块
分词
共享文件系统
自定义词库
词典
数据隐私保护
自然语言理解
BERT模型
增强子
数据格式
子模块
文本
深度学习方法
聊天场景
开源技术
系统为您推荐了相关专利信息
电机设备
卷烟机
设备运行工况
故障诊断方法
积分算法
形态检测方法
模型预测值
形态检测系统
粗集料颗粒
参数
自动化测试方法
自动化测试系统
设备运行状态
生成控制指令
数据分析模块