摘要
本发明提供了数据标注技术领域的一种基于行业词库与标签库的数据标注方法及系统,方法包括:步骤S1、获取大量历史标注数据,基于行业对各历史标注数据进行分组;步骤S2、基于各历史标注数据创建行业词库以及标签库;步骤S3、识别待标注文件得到待标注数据,识别待标注数据的行业以及项目编号;步骤S4、通过行业匹配对应的行业词库,自然语言分词工具基于行业词库的行业分词对文本数据执行分词操作,得到分词结果;通过项目编号匹配对应的标签库,基于标签库的项目标签对分词结果进行预标注,得到预标注结果;步骤S5、对预标注结果进行审核和修正后,生成标注结果。本发明的优点在于:极大的提升了数据标注的质量以及效率,降低标注成本。
技术关键词
数据标注方法
自然语言分词
数据标注系统
标签
工作流引擎
项目
标注规则
数据标注技术
图像增强
文本
识别模块
数据获取模块
关系
备份
系统为您推荐了相关专利信息
压缩空气储能电站
智能识别方法
三维地震数据
形态
分类网络
信用预测模型
信用预测方法
数据
样本
模型训练方法
多模态数据分析
图表生成方法
样本
元素
多模态特征融合
资源分配策略
辅助驾驶装置
遗传算法优化
同步控制模块
视频采集模块