摘要
本申请公开了一种训练数据质检方法及相关装置,涉及数据处理技术领域,包括:对指令数据进行标注,得到指令数据的标签集合,其中包括多个粒度的标签、多个视角的标签和多种上下文关联的标签中的至少两个标注维度的标签;对每个标签集合中的标签进行聚类,得到多个标签簇,对应每个标签簇从语义准确性、逻辑一致性、领域相关性和用户需求匹配度中的至少两个评估维度进行质量评估,得到对应每个标签簇的基于至少两个评估维度的综合质量评分;根据多个指令数据簇的分布均匀度、指令长度的分布情况和标签分布情况确定指令数据集的多样性评分;至少根据指令数据簇的密度和语义关联矩阵的密度确定指令数据集的复杂性评分,提高了训练数据质检的准确性。
技术关键词
标签
数据质检方法
语义
聚类
计算机可读指令
密度
电子设备
融合特征
神经网络算法
计算机存储介质
数据处理技术
计算机程序产品
多视角
逻辑
异构
节点
系统为您推荐了相关专利信息
标识生成方法
织物
计算机可读指令
序列号信息
数据
通信计算机监控系统
数据传输模块
多项式
存储管理模块
实时监控系统
混合编码器
注意力
上下文特征
生成特征
模块结构