摘要
本发明提供了一种面向城轨领域大模型构建高质量数据集的方法及系统,包括以下步骤:将符合业务需求的数据进行收集汇总,作为输入数据源;通过数据预处理对数据进行清洗,提高数据的质量;对预处理后的数据添加标签,以便数据的关键特征被更好的理解以及学习;通过数据维护对标注数据进行质量审核和动态管理。本发明提供的一种面向城轨领域大模型构建高质量数据集的方法及系统,涵盖了数据采集、预处理、标注、维护和安全等多个方面。提升了整个数据处理过程的系统化和标准化程度,有利于提高数据质量和模型训练的效果。
技术关键词
K近邻算法
数据安全服务
标签
数据分布特征
命名实体识别
脱敏策略
样本
邻居
机器翻译
数据采集模块
噪声
文本
异常数据
代表
动态
特征值
密度
系统为您推荐了相关专利信息
学生
教师
样本类别标签
知识蒸馏方法
元学习算法
访问控制方法
数据终端
虚拟文件系统
访问控制模块
数据安全管控