摘要
本发明涉及一种面向数字孪生的工业大语言模型语料制作方法,包括以下步骤:首先面向数字孪生系统,从钢铁工业数据库中提取生产、设备状态、故障记录等多维数据。然后利用大语言模型代理进行数据处理和关联。接着将文档分割成多个较小的文本块,并对分块后的数据利用BGE嵌入模型进行向量化的转化。最后设计提示词prompt引导大语言模型代理对分块后的数据生成Alpaca格式的问答对。该方法解决了工业领域大量数据中难以提取有用信息,以辅助决策和优化生产过程的问题。通过构建专用的工业大语言模型微调数据集,提升了大语言模型在钢铁行业中的应用效果。不仅为后续SFT(监督微调)过程提供有效的支持,同时进一步推动了钢铁领域的自动化发展。
技术关键词
大语言模型
数字孪生系统
文本
虚拟设备
分块
工业
数据
设备状态信息
钢铁
物理设备
注意力机制
格式
自然语言
索引
连续性
场景
序列
答案
系统为您推荐了相关专利信息
测试场景
仿真场景
条件生成对抗网络
学生
自动驾驶系统
人机对话方法
信息项
信息处理方法
多模态信息
客服系统
元素
生成方法
自定义图像
生成页面代码
大语言模型
预训练语言模型
文本生成方法
样本
信息验证
预训练模型