一种大语言模型预训练低质量数据评估方法

AITNT
正文
推荐专利
一种大语言模型预训练低质量数据评估方法
申请号:CN202411544562
申请日期:2024-10-31
公开号:CN119396823A
公开日期:2025-02-07
类型:发明专利
摘要
本发明涉及一种大语言模型预训练低质量数据评估方法,方法包括以下步骤:获取待评估数据,得到采样样本;采用大语言模型对采样样本进行打分,进行一定比例采样,对采样后的数据进行人工标注,得到低质量数据指标;先根据启发式指标对待评估数据进行评估,采用对应的启发式规则得到启发规则评分,分为初步低质量数据和初步高质量数据,并得到初步低质量数据占比;然后根据非启发式指标对初步高质量数据进行评估,基于对大语言模型定义的维度将初步高质量数据分为最终低质量数据和最终高质量数据,计算低质量数据在待评估数据中的总占比。与现有技术相比,本发明具有高效且准确分析大语言模型数据中低质量数据等优点。
技术关键词
数据评估方法 大语言模型 启发式规则 指标 样本 有效性 定义 数据分布 格式 版权 异性 表格 日期 字符 文本 总量 分层 逻辑 误差
系统为您推荐了相关专利信息
1
一种基于RFID的排水管网智能巡检方法及系统
RFID标签 巡检路径 RFID读写器 后台服务器 排水管
2
课外书推荐方法、装置、设备及介质
学生 计算机执行指令 推荐方法 图书 协同过滤算法
3
一种基于支持向量机的水电机组故障识别方法
水电机组故障 识别方法 数据 时序 支持向量机
4
水下多源自主导航系统可检测性量化模型及滤波方法
自主导航系统 传感器 滤波方法 卡尔曼滤波算法 导航坐标系
5
作品识别处理方法及装置
对象 物理 大语言模型 终端 计算机可执行指令
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号