摘要
本申请涉及数据标注技术领域,其具体地公开了一种大模型数据智能标注方法及系统,其采用基于深度学习的自然语言处理技术对未标注文本数据集中的各个未标注文本数据进行置信度评估,选择最小置信度对应的文本数据作为代表样本数据,并对所述代表样本数据进行语料扩充,进而,通过对所述代表样本数据和语料扩充后的代表样本数据进行语义特征提取和补偿式交互融合,以充分利用两者之间的共有信息和独特信息,从而实现对所述代表样本数据的全面语义理解和智能标注。通过这种方式,可以显著提高数据标注的效率和准确性,同时大幅度减少人工干预的需求,降低标注成本。
技术关键词
样本
代表
智能标注方法
文本
补偿式
编码向量
特征提取网络
扩充模块
Sigmoid函数
数据标注技术
语义特征提取
标注系统
大语言模型
分类器
特征值
自然语言
系统为您推荐了相关专利信息
三维电路板
电子元器件
深度学习模型
神经网络模型
分类预测方法
大语言模型
决策优化方法
动态修正结构
策略
融合语义
神经网络预测模型
时序
图谱
样本
马尔可夫逻辑网络