基于大数据分析的AI语料数据自动筛选与获取方法

正文

推荐专利

申请号：CN202510435440

申请日期：2025-04-09

公开号：CN119961577B

公开日期：2025-07-15

类型：发明专利

摘要

本发明涉及数据处理技术领域，具体涉及基于大数据分析的AI语料数据自动筛选与获取方法，包括以下步骤：实时监测各数据源的更新频率、内容演化路径及异常波动特征，生成动态可信度参数；基于动态可信度参数构建时空加权筛选模型，同步融合实时训练需求特征，生成筛选决策向量；根据动态可信度参数以及筛选决策向量生成多维度采集指令集，控制分布式采集节点执行：动态调整采集频率、触发异构数据清洗、阻断低质数据流；执行以上后获得筛选后的语料数据。本发明，实现了对数据源可靠性、内容一致性及异常扩散风险的量化评估，避免低质量、伪劣或存在异常传播的数据进入训练集，显著提升数据的整体质量稳定性。

技术关键词

分布式采集节点动态语义决策数据采集频率清洗策略 Sigmoid函数波动特征参数数据更新频率指数衰减函数生成数据源滑动时间窗基线异构数据处理技术矩阵

基于大数据分析的AI语料数据自动筛选与获取方法

站点导航

APP 下载