摘要
本发明适用于数据标注技术领域,提供了一种高质量智能数据标注方法,包括以下步骤:向量化及向量空间构建:输入文本,进行种子标注,选择代表性样本;将文本映射为d维语义向量,得到整个语料的向量空间;以部分已标注样本为提示,驱动LLM产出规则特征,确定规则特征向量;构造混合特征空间;构建相似图,进行标签传播;进行不确定数学信度检验,将信度嵌入样本,确定向量证据、规则证据以及LLM直判证据,进行证据融合,将证据变成最终信度,将信度送入标签传播,进行决策。本发明利用LLM产出规则特征并确定规则特征向量,挖掘数据中的语义和模式信息,两者在混合特征空间中融合,从多个角度对数据进行表征,提高了标注的准确性。
技术关键词
数据标注方法
语义向量
样本
文本
节点
标签
数据标注技术
矩阵
种子
超参数
语义结构
邻居
度量
数学
决策
校准
基础
关键词
线索