一种面向数字孪生的工业大语言模型语料制作方法

正文

推荐专利

申请号：CN202510248344

申请日期：2025-03-04

公开号：CN120297405A

公开日期：2025-07-11

类型：发明专利

摘要

本发明涉及一种面向数字孪生的工业大语言模型语料制作方法，包括以下步骤：首先面向数字孪生系统，从钢铁工业数据库中提取生产、设备状态、故障记录等多维数据。然后利用大语言模型代理进行数据处理和关联。接着将文档分割成多个较小的文本块，并对分块后的数据利用BGE嵌入模型进行向量化的转化。最后设计提示词prompt引导大语言模型代理对分块后的数据生成Alpaca格式的问答对。该方法解决了工业领域大量数据中难以提取有用信息，以辅助决策和优化生产过程的问题。通过构建专用的工业大语言模型微调数据集，提升了大语言模型在钢铁行业中的应用效果。不仅为后续SFT(监督微调)过程提供有效的支持，同时进一步推动了钢铁领域的自动化发展。

技术关键词

大语言模型数字孪生系统文本虚拟设备分块工业数据设备状态信息钢铁物理设备注意力机制格式自然语言索引连续性场景序列答案

系统为您推荐了相关专利信息

自动驾驶测试场景集优化方法、装置、设备及存储介质

测试场景仿真场景条件生成对抗网络学生自动驾驶系统

在线人机对话方法、客服系统、设备及存储介质

人机对话方法信息项信息处理方法多模态信息客服系统

页面代码的生成方法、装置、设备、介质和产品

元素生成方法自定义图像生成页面代码大语言模型

一种可控文本生成方法、装置及电子设备

预训练语言模型文本生成方法样本信息验证预训练模型

一种基于动态语义分析的自媒体内容投流匹配方法和系统

语义主题动态关联规则动态语义分析数值媒体

一种面向数字孪生的工业大语言模型语料制作方法

站点导航

APP 下载