一种数据清洗方法

正文

推荐专利

一种数据清洗方法

申请号：CN202510376678

申请日期：2025-03-27

公开号：CN119884611B

公开日期：2025-07-11

类型：发明专利

摘要

本申请公开了一种数据清洗方法，涉及自然语言处理技术领域，包括基于损失函数计算价值评估分数，此分数可衡量模型参数对词元预测的准确性，以通过分数识别出噪声和冗余等低价值词元。接着依分数排列并筛选预设区间的目标词元，从而把价值低、含噪声和冗余的词元清洗掉。如此一来，去除了对模型微调有负面影响的部分，让数据更纯净，提高了数据质量，解决了预训练语言模型监督微调过程中，数据质量受样本内词元层面噪声和冗余信息影响的技术问题。

技术关键词

预训练语言模型数据清洗方法样本数据清洗装置识别出噪声参数可读存储介质多模态存储计算机程序计算机程序产品聚类冗余自然语言处理器模块电子设备

系统为您推荐了相关专利信息

一种基于机器学习算法和定量构效关系的珍稀濒危生物毒性预测方法

生物毒性预测方法定量构效关系机器学习算法描述符广义线性模型

一种结合深度学习与希尔伯特变换的高效条纹投影轮廓术

条纹投影轮廓术包裹相位训练卷积神经网络条纹图案强度

一种基于关键化学指标的配方设计方法及装置

烟叶原料烟叶配方还原糖指标烟碱

一种基于AI智能控制的电动机长期冷态的管理方法及系统

AI智能控制绝缘管理方法命令数据运算单元

一种金属家具生产质量检测系统及方法

金属家具图像分割算法图像滤波算法计算机程序代码重金属含量检测

一种数据清洗方法

站点导航

APP 下载