摘要
本发明涉及一种大语言模型预训练低质量数据评估方法,方法包括以下步骤:获取待评估数据,得到采样样本;采用大语言模型对采样样本进行打分,进行一定比例采样,对采样后的数据进行人工标注,得到低质量数据指标;先根据启发式指标对待评估数据进行评估,采用对应的启发式规则得到启发规则评分,分为初步低质量数据和初步高质量数据,并得到初步低质量数据占比;然后根据非启发式指标对初步高质量数据进行评估,基于对大语言模型定义的维度将初步高质量数据分为最终低质量数据和最终高质量数据,计算低质量数据在待评估数据中的总占比。与现有技术相比,本发明具有高效且准确分析大语言模型数据中低质量数据等优点。
技术关键词
数据评估方法
大语言模型
启发式规则
指标
样本
有效性
定义
数据分布
格式
版权
异性
表格
日期
字符
文本
总量
分层
逻辑
误差
系统为您推荐了相关专利信息
RFID标签
巡检路径
RFID读写器
后台服务器
排水管
学生
计算机执行指令
推荐方法
图书
协同过滤算法
自主导航系统
传感器
滤波方法
卡尔曼滤波算法
导航坐标系