摘要
本申请涉及大语言模型文本处理技术领域,具体涉及一种面向智能制造的大模型预训练方法及系统,该方法包括:获取文本语料库,并对文本语料库中每篇文本语料进行分词处理得到每篇文本语料的词汇数据集;提取每个段落的段落词汇集的各聚类簇,获取各聚类簇的语义模糊度及低频一致度,进而得到各聚类簇的高频冗余干扰度;对每篇文本语料中各段落对应的所有聚类簇的高频冗余干扰度进行奇异值分解,并获取每篇文本语料的词汇可疑度,基于此计算每篇文本语料的窗口适应值,获取LLM大模型预训练的训练数据集,以对LLM大模型进行预训练。本申请可提高大语言模型预训练的精度。
技术关键词
预训练方法
模型预训练
冗余
语义
大语言模型
文本处理技术
聚类算法
分词
矩阵
数据
处理器
存储器
元素
尺寸
关系
度量
精度
系统为您推荐了相关专利信息
三维点云模型
工频电场强度
变电站巡检无人机
巡检路径规划方法
电磁检测装置