一种LLMs预训练数据集优化方法、设备及存储介质

正文

推荐专利

申请号：CN202510184713

申请日期：2025-02-19

公开号：CN120105100A

公开日期：2025-06-06

类型：发明专利

摘要

本发明公开了一种LLMs预训练数据集优化方法，包括：选取数据集内部数据，采用滑动窗口对文本进行逐片段的隐马尔可夫模型困惑度计算；基于所述隐马尔可夫模型困惑度计算结果，通过困惑度加权平均计算获得整个文本的综合困惑度评分，用于筛选数据集内部语义混乱的语句。本发明在传统的困惑度计算基础上通过引入滑动窗口技术和加权平均策略，能够为整个文本提供综合的质量评估指标，方便更精确地评估文本的语言模型适配度，相比单一困惑度计算，能更全面反映文本的质量状况，同时能够有效筛选出数据集中语义混乱的句子，将免费获取的网络低质量语料文本转换为高质量、有价值的语料，有效节省LLMs预训练成本、提升模型能力。

技术关键词

隐马尔可夫模型文本加权平均策略数据滑动窗口技术处理器字词语义语句计算机设备序列可读存储介质存储器编码矩阵指标代表

系统为您推荐了相关专利信息

机械表表芯秒轴加工方法

机械表柔性夹持装置材料数据库激光检测仪切削力

一种基于EMD-KPCA-改进BP神经网络的最大负荷量预测方法

负荷量预测方法电力系统负荷 BP神经网络数据训练样本集

一种基于大数据车牌样本的车牌识别方法及系统

车牌识别方法车牌号码识别直方图特征颜色直方图大数据

一种数据中心散热系统回流温度数据预测方法及系统

历史运行数据温度预测模型 Pearson相关系数数据中心散热系统数据预测方法

一种用于牙齿表面涂氟方法和系统

氟化物控制模块电化学传感器机器学习模型特征识别信息

一种LLMs预训练数据集优化方法、设备及存储介质

站点导航

APP 下载