摘要
本发明涉及数据质量评估技术领域,具体为一种文化领域高质量数据集的自动化质量评估方法,包括以下步骤:提取语义片段与向量信息,聚类分析覆盖结构,筛除冗余样本,标注图文差异,输出一致性评估结果。本发明中,通过语义信息的结构化抽取与向量分布度量使得语义覆盖与结构密集程度可实现高精度识别,向量重合频率与相似度阈值联动筛除增强冗余检测的判别性,图文位置差异与语义跨度联合标注机制提升图文一致性标记的系统性,文本筛除内容与图文差异标注结果间的同步对照机制确保冗余与偏差的交集样本可精确识别,文化语义内容在向量空间中的密集聚类与结构偏离点的定量分析能力同步提升,评估结果的综合维度与逻辑闭合性实现优化。
技术关键词
样本
图文
关键词
文本
跨度
冗余
语义向量空间
数据
图像结构
代表
标记
聚类
语义结构
句法结构
波动特征
图像边缘信息
索引
分布特征
坐标
系统为您推荐了相关专利信息
文本识别模型
图像处理工具
图像文本识别方法
训练样本数据
非易失性计算机可读存储介质
模态特征
模型训练方法
视频理解方法
记忆
数据编码
并联电容装置
故障预测方法
采样点
电容性元件
数学模型