一种高质量大模型训练数据的制作系统及方法

AITNT
正文
推荐专利
一种高质量大模型训练数据的制作系统及方法
申请号:CN202411559630
申请日期:2024-11-04
公开号:CN119337938A
公开日期:2025-01-21
类型:发明专利
摘要
本发明公开了一种高质量大模型训练数据的制作系统及方法,系统包括数据集管理模块、数据标注模块、敏感词库模块、数据处理模块、数据分析模块,方法步骤为S1:定义元数据;S2:导入数据;S3:转换数据格式;S4:存储数据;S5:处理数据;S6,分析数据。本发明基于前沿深度学习方法,充分利用开源技术制定大模型的训练数据的标准、规范,解决数据规范问题;建立数据收集、过滤、整理、存储的数据管道,提升数据处理效率;完善数据质量评估,以收集企业核心数据。
技术关键词
数据处理模块 数据分析模块 MongoDB数据库 语言模块 分词 共享文件系统 自定义词库 词典 数据隐私保护 自然语言理解 BERT模型 增强子 数据格式 子模块 文本 深度学习方法 聊天场景 开源技术
系统为您推荐了相关专利信息
1
用于安全生产的安全管理风险动态监测系统
动态监测系统 周期 数据采集模块 偏差 巡检数据
2
一种卷烟机电机设备的故障诊断方法、装置、设备及介质
电机设备 卷烟机 设备运行工况 故障诊断方法 积分算法
3
数据库检索方法、装置、电子设备及介质
数据库检索方法 指令 分词 分支 关键词
4
一种基于颗粒二维参数的集料三维形态检测方法及系统
形态检测方法 模型预测值 形态检测系统 粗集料颗粒 参数
5
一种用于冰箱化霜降噪应用自动化测试系统、方法及储存介质
自动化测试方法 自动化测试系统 设备运行状态 生成控制指令 数据分析模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号