摘要
本发明涉及大数据处理技术,具体涉及一种一种数据智能标注方法和系统。一种数据智能标注方法包括如下过程:舆情数据预处理;历史样本库语义去重,更新样本库;基于历史工单库和大模型的智能辅助标注方法;模型更新和样本增量更新;本发明相对于现有技术的优点在于:采用多个维度的数据清洗方法,提升待标注数据质量,并且通过语义去重降低重复语义信息的干扰;挖掘历史工单中相似工单的潜在价值,构建了用于辅助标注的大模型提示词工程,提供可用的辅助标注提示词模板,打通提示词构建、辅助标注流程;采用PDCA思想,构建数据‑标注‑模型‑工单的闭环管理和PDCA机制螺旋式数据质量方法。
技术关键词
智能标注方法
样本
数据清洗方法
文本
历史工单数据
智能辅助标注方法
语义
哈希算法
检查工具
增量更新
非标准
字段
字符
标签标准化
大数据处理技术
检测工具
格式
数据同步
标识符
系统为您推荐了相关专利信息
大语言模型
风险评估方法
诊疗数据
多模态特征
深度学习模型
边缘结构信息
边缘检测模型
空间注意力模型
融合特征
图像处理方法
数据库查询方法
轻量化神经网络
数据库查询系统
数据库执行计划
蒸馏
多模态
实体关系抽取模型
融合特征
数据
非暂态计算机可读存储介质