摘要
本发明属于数据处理技术领域,公开了基于特征工程的企业多类型数据标注方法及系统,通过采集企业内部信息系统的初始数据,划分得到文本数据集、表格数据集和图像数据集;提取特征并筛选后将不同类型数据的特征向量融合,构建得到多维度的特征空间;根据特征空间的特征信息构建标注模型,对未标注新数据构建相似样本对作为正样本对,不相关样本对作为负样本对,对比学习优化相似样本对之间的相似度;基于对比学习得到的特征向量进行标签推断,生成标注结果。本发明能够实现对多种类型数据的高效自动化标注,适用于文本、表格、图像等多种异构数据,具备较高的标注精度与扩展性。
技术关键词
数据标注方法
特征工程
企业内部信息系统
数据特征提取
样本
文本
表格
生成对抗网络
词频统计筛选
标签
数据标注系统
多头注意力机制
图像特征向量
半监督学习
置信度阈值
数据处理技术
交互特征