一种文化领域高质量数据集的自动化质量评估方法

正文

推荐专利

申请号：CN202511019168

申请日期：2025-07-23

公开号：CN120951988A

公开日期：2025-11-14

类型：发明专利

摘要

本发明涉及数据质量评估技术领域，具体为一种文化领域高质量数据集的自动化质量评估方法，包括以下步骤：提取语义片段与向量信息，聚类分析覆盖结构，筛除冗余样本，标注图文差异，输出一致性评估结果。本发明中，通过语义信息的结构化抽取与向量分布度量使得语义覆盖与结构密集程度可实现高精度识别，向量重合频率与相似度阈值联动筛除增强冗余检测的判别性，图文位置差异与语义跨度联合标注机制提升图文一致性标记的系统性，文本筛除内容与图文差异标注结果间的同步对照机制确保冗余与偏差的交集样本可精确识别，文化语义内容在向量空间中的密集聚类与结构偏离点的定量分析能力同步提升，评估结果的综合维度与逻辑闭合性实现优化。

技术关键词

样本图文关键词文本跨度冗余语义向量空间数据图像结构代表标记聚类语义结构句法结构波动特征图像边缘信息索引分布特征坐标

系统为您推荐了相关专利信息

图像文本识别方法及其模型训练方法、装置、设备及介质

文本识别模型图像处理工具图像文本识别方法训练样本数据非易失性计算机可读存储介质

基于自适应多模态提示学习的图像分类方法

图像分类方法图像编码器矩阵意义图像图像块

视频理解方法、模型训练方法、装置以及电子设备

模态特征模型训练方法视频理解方法记忆数据编码

基于机理唯象模型多工况流场仿真求解方法及装置

唯象模型监测点工况样本数据

一种基于并联电容装置阻抗变化的故障预测方法

并联电容装置故障预测方法采样点电容性元件数学模型

一种文化领域高质量数据集的自动化质量评估方法

站点导航

APP 下载