摘要
本发明公开了一种LLMs预训练数据集优化方法,包括:选取数据集内部数据,采用滑动窗口对文本进行逐片段的隐马尔可夫模型困惑度计算;基于所述隐马尔可夫模型困惑度计算结果,通过困惑度加权平均计算获得整个文本的综合困惑度评分,用于筛选数据集内部语义混乱的语句。本发明在传统的困惑度计算基础上通过引入滑动窗口技术和加权平均策略,能够为整个文本提供综合的质量评估指标,方便更精确地评估文本的语言模型适配度,相比单一困惑度计算,能更全面反映文本的质量状况,同时能够有效筛选出数据集中语义混乱的句子,将免费获取的网络低质量语料文本转换为高质量、有价值的语料,有效节省LLMs预训练成本、提升模型能力。
技术关键词
隐马尔可夫模型
文本
加权平均策略
数据
滑动窗口技术
处理器
字词
语义
语句
计算机设备
序列
可读存储介质
存储器
编码
矩阵
指标
代表
系统为您推荐了相关专利信息
机械表
柔性夹持装置
材料数据库
激光检测仪
切削力
负荷量预测方法
电力系统负荷
BP神经网络
数据
训练样本集
车牌识别方法
车牌号码识别
直方图特征
颜色直方图
大数据
历史运行数据
温度预测模型
Pearson相关系数
数据中心散热系统
数据预测方法
氟化物
控制模块
电化学传感器
机器学习模型
特征识别信息