一种数据清洗方法

AITNT
正文
推荐专利
一种数据清洗方法
申请号:CN202510376678
申请日期:2025-03-27
公开号:CN119884611B
公开日期:2025-07-11
类型:发明专利
摘要
本申请公开了一种数据清洗方法,涉及自然语言处理技术领域,包括基于损失函数计算价值评估分数,此分数可衡量模型参数对词元预测的准确性,以通过分数识别出噪声和冗余等低价值词元。接着依分数排列并筛选预设区间的目标词元,从而把价值低、含噪声和冗余的词元清洗掉。如此一来,去除了对模型微调有负面影响的部分,让数据更纯净,提高了数据质量,解决了预训练语言模型监督微调过程中,数据质量受样本内词元层面噪声和冗余信息影响的技术问题。
技术关键词
预训练语言模型 数据清洗方法 样本 数据清洗装置 识别出噪声 参数 可读存储介质 多模态 存储计算机程序 计算机程序产品 聚类 冗余 自然语言 处理器 模块 电子设备
系统为您推荐了相关专利信息
1
一种基于机器学习算法和定量构效关系的珍稀濒危生物毒性预测方法
生物毒性预测方法 定量构效关系 机器学习算法 描述符 广义线性模型
2
一种结合深度学习与希尔伯特变换的高效条纹投影轮廓术
条纹投影轮廓术 包裹相位 训练卷积神经网络 条纹图案 强度
3
一种基于关键化学指标的配方设计方法及装置
烟叶原料 烟叶配方 还原糖 指标 烟碱
4
一种基于AI智能控制的电动机长期冷态的管理方法及系统
AI智能控制 绝缘 管理方法 命令 数据运算单元
5
一种金属家具生产质量检测系统及方法
金属家具 图像分割算法 图像滤波算法 计算机程序代码 重金属含量检测
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号