一种面向城轨领域大模型构建高质量数据集的方法及系统

AITNT
正文
推荐专利
一种面向城轨领域大模型构建高质量数据集的方法及系统
申请号:CN202411498896
申请日期:2024-10-25
公开号:CN119474667A
公开日期:2025-02-18
类型:发明专利
摘要
本发明提供了一种面向城轨领域大模型构建高质量数据集的方法及系统,包括以下步骤:将符合业务需求的数据进行收集汇总,作为输入数据源;通过数据预处理对数据进行清洗,提高数据的质量;对预处理后的数据添加标签,以便数据的关键特征被更好的理解以及学习;通过数据维护对标注数据进行质量审核和动态管理。本发明提供的一种面向城轨领域大模型构建高质量数据集的方法及系统,涵盖了数据采集、预处理、标注、维护和安全等多个方面。提升了整个数据处理过程的系统化和标准化程度,有利于提高数据质量和模型训练的效果。
技术关键词
K近邻算法 数据安全服务 标签 数据分布特征 命名实体识别 脱敏策略 样本 邻居 机器翻译 数据采集模块 噪声 文本 异常数据 代表 动态 特征值 密度
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号