一种大语言模型预训练低质量数据评估方法

正文

推荐专利

一种大语言模型预训练低质量数据评估方法

申请号：CN202411544562

申请日期：2024-10-31

公开号：CN119396823A

公开日期：2025-02-07

类型：发明专利

摘要

本发明涉及一种大语言模型预训练低质量数据评估方法，方法包括以下步骤：获取待评估数据，得到采样样本；采用大语言模型对采样样本进行打分，进行一定比例采样，对采样后的数据进行人工标注，得到低质量数据指标；先根据启发式指标对待评估数据进行评估，采用对应的启发式规则得到启发规则评分，分为初步低质量数据和初步高质量数据，并得到初步低质量数据占比；然后根据非启发式指标对初步高质量数据进行评估，基于对大语言模型定义的维度将初步高质量数据分为最终低质量数据和最终高质量数据，计算低质量数据在待评估数据中的总占比。与现有技术相比，本发明具有高效且准确分析大语言模型数据中低质量数据等优点。

技术关键词

数据评估方法大语言模型启发式规则指标样本有效性定义数据分布格式版权异性表格日期字符文本总量分层逻辑误差

系统为您推荐了相关专利信息

一种基于RFID的排水管网智能巡检方法及系统

RFID标签巡检路径 RFID读写器后台服务器排水管

课外书推荐方法、装置、设备及介质

学生计算机执行指令推荐方法图书协同过滤算法

一种基于支持向量机的水电机组故障识别方法

水电机组故障识别方法数据时序支持向量机

水下多源自主导航系统可检测性量化模型及滤波方法

自主导航系统传感器滤波方法卡尔曼滤波算法导航坐标系

作品识别处理方法及装置

对象物理大语言模型终端计算机可执行指令

一种大语言模型预训练低质量数据评估方法

站点导航

APP 下载