训练数据质检方法、装置、设备、存储介质和程序产品

AITNT
正文
推荐专利
训练数据质检方法、装置、设备、存储介质和程序产品
申请号:CN202511033824
申请日期:2025-07-25
公开号:CN120744545A
公开日期:2025-10-03
类型:发明专利
摘要
本申请公开了一种训练数据质检方法及相关装置,涉及数据处理技术领域,包括:对指令数据进行标注,得到指令数据的标签集合,其中包括多个粒度的标签、多个视角的标签和多种上下文关联的标签中的至少两个标注维度的标签;对每个标签集合中的标签进行聚类,得到多个标签簇,对应每个标签簇从语义准确性、逻辑一致性、领域相关性和用户需求匹配度中的至少两个评估维度进行质量评估,得到对应每个标签簇的基于至少两个评估维度的综合质量评分;根据多个指令数据簇的分布均匀度、指令长度的分布情况和标签分布情况确定指令数据集的多样性评分;至少根据指令数据簇的密度和语义关联矩阵的密度确定指令数据集的复杂性评分,提高了训练数据质检的准确性。
技术关键词
标签 数据质检方法 语义 聚类 计算机可读指令 密度 电子设备 融合特征 神经网络算法 计算机存储介质 数据处理技术 计算机程序产品 多视角 逻辑 异构 节点
系统为您推荐了相关专利信息
1
并行度的调整方法、装置、设备、存储介质及程序产品
瓶颈 编码器 数据流结构 关系 表征数据流
2
织物防裁剪标识生成方法、装置、设备及存储介质
标识生成方法 织物 计算机可读指令 序列号信息 数据
3
一种通信计算机监控系统
通信计算机监控系统 数据传输模块 多项式 存储管理模块 实时监控系统
4
通话录音违规检测方法、装置、计算机设备及存储介质
违规检测方法 违规检测模型 文本 关键词 语音
5
一种基于FHC-DETR的废钢分类判级方法
混合编码器 注意力 上下文特征 生成特征 模块结构
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号