一种LLMs预训练数据集优化方法、设备及存储介质

AITNT
正文
推荐专利
一种LLMs预训练数据集优化方法、设备及存储介质
申请号:CN202510184713
申请日期:2025-02-19
公开号:CN120105100A
公开日期:2025-06-06
类型:发明专利
摘要
本发明公开了一种LLMs预训练数据集优化方法,包括:选取数据集内部数据,采用滑动窗口对文本进行逐片段的隐马尔可夫模型困惑度计算;基于所述隐马尔可夫模型困惑度计算结果,通过困惑度加权平均计算获得整个文本的综合困惑度评分,用于筛选数据集内部语义混乱的语句。本发明在传统的困惑度计算基础上通过引入滑动窗口技术和加权平均策略,能够为整个文本提供综合的质量评估指标,方便更精确地评估文本的语言模型适配度,相比单一困惑度计算,能更全面反映文本的质量状况,同时能够有效筛选出数据集中语义混乱的句子,将免费获取的网络低质量语料文本转换为高质量、有价值的语料,有效节省LLMs预训练成本、提升模型能力。
技术关键词
隐马尔可夫模型 文本 加权平均策略 数据 滑动窗口技术 处理器 字词 语义 语句 计算机设备 序列 可读存储介质 存储器 编码 矩阵 指标 代表
系统为您推荐了相关专利信息
1
机械表表芯秒轴加工方法
机械表 柔性夹持装置 材料数据库 激光检测仪 切削力
2
一种基于EMD-KPCA-改进BP神经网络的最大负荷量预测方法
负荷量预测方法 电力系统负荷 BP神经网络 数据 训练样本集
3
一种基于大数据车牌样本的车牌识别方法及系统
车牌识别方法 车牌号码识别 直方图特征 颜色直方图 大数据
4
一种数据中心散热系统回流温度数据预测方法及系统
历史运行数据 温度预测模型 Pearson相关系数 数据中心散热系统 数据预测方法
5
一种用于牙齿表面涂氟方法和系统
氟化物 控制模块 电化学传感器 机器学习模型 特征识别信息
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号