摘要
本发明公开了一种基于众包的分词标注质量评估系统,涉及标注质量评估领域,用于解决众包用户的主观理解能力存在差异导致提交的标注结果与对应类型存在偏差,使得质量识别不清的问题,采集文本分词置信度评分、文本对应类型与其余类型标准相似度、用户本轮标注数量差以及用户历史标注正确率差值建立数据分析模型,得到偏差评估系数并与偏差阈值比对,得到并统计比对结果,进一步确定标注结果错误提交的可能,标记为再划分标注结果,可划分类别相似度以及最相似标注结果对应的类别与最相似类别相似差异制定一组模糊规则进行模糊推理,确定再划分标注结果的划分方案,弥补了当前系统无法捕捉用户主观性差异的空白,提高标注效率。
技术关键词
偏差
评估系统
正确率
分词
文本
数值
数据分析模型
数据处理模块
模糊规则
模糊集合
模糊推理
数据采集模块
分析模块
模糊逻辑
标记
表达式
定义
变量
信号