一种面向智能制造的大模型预训练方法及系统

正文

推荐专利

申请号：CN202511247189

申请日期：2025-09-02

公开号：CN120892818A

公开日期：2025-11-04

类型：发明专利

摘要

本申请涉及大语言模型文本处理技术领域，具体涉及一种面向智能制造的大模型预训练方法及系统，该方法包括：获取文本语料库，并对文本语料库中每篇文本语料进行分词处理得到每篇文本语料的词汇数据集；提取每个段落的段落词汇集的各聚类簇，获取各聚类簇的语义模糊度及低频一致度，进而得到各聚类簇的高频冗余干扰度；对每篇文本语料中各段落对应的所有聚类簇的高频冗余干扰度进行奇异值分解，并获取每篇文本语料的词汇可疑度，基于此计算每篇文本语料的窗口适应值，获取LLM大模型预训练的训练数据集，以对LLM大模型进行预训练。本申请可提高大语言模型预训练的精度。

技术关键词

预训练方法模型预训练冗余语义大语言模型文本处理技术聚类算法分词矩阵数据处理器存储器元素尺寸关系度量精度

系统为您推荐了相关专利信息

一种渗透测试方法、装置、电子设备及存储介质

大语言模型主机渗透测试方法网络系统凭证

一种基于大模型的煤炭物流园区内容生成客服系统

客服系统煤炭文本关键词数据采集模块

一种结合体素和空间坐标进行新类别发现的语义分割方法

语义分割方法结合体注意力坐标邻域

一种变电站巡检无人机的巡检路径规划方法及系统

三维点云模型工频电场强度变电站巡检无人机巡检路径规划方法电磁检测装置

基于智慧服务平台的数字化供应链集成系统及方法

节点智慧服务平台综合性层级消费品

一种面向智能制造的大模型预训练方法及系统

站点导航

APP 下载