摘要
本申请公开了一种数据清洗方法,涉及自然语言处理技术领域,包括基于损失函数计算价值评估分数,此分数可衡量模型参数对词元预测的准确性,以通过分数识别出噪声和冗余等低价值词元。接着依分数排列并筛选预设区间的目标词元,从而把价值低、含噪声和冗余的词元清洗掉。如此一来,去除了对模型微调有负面影响的部分,让数据更纯净,提高了数据质量,解决了预训练语言模型监督微调过程中,数据质量受样本内词元层面噪声和冗余信息影响的技术问题。
技术关键词
预训练语言模型
数据清洗方法
样本
数据清洗装置
识别出噪声
参数
可读存储介质
多模态
存储计算机程序
计算机程序产品
聚类
冗余
自然语言
处理器
模块
电子设备
系统为您推荐了相关专利信息
生物毒性预测方法
定量构效关系
机器学习算法
描述符
广义线性模型
条纹投影轮廓术
包裹相位
训练卷积神经网络
条纹图案
强度
金属家具
图像分割算法
图像滤波算法
计算机程序代码
重金属含量检测