一种从文件中提取数据微调大语言模型的方法

正文

推荐专利

申请号：CN202410740264

申请日期：2024-06-07

公开号：CN118585497A

公开日期：2024-09-03

类型：发明专利

摘要

本发明公开了一种从文件中提取数据微调大语言模型的方法，涉及软件开发技术领域，一种从文件中提取数据微调大语言模型的方法，此方法使得用户在前台可视化界面上传文件，后台服务端自动将文件的内容提取并生成训练数据推送至大语言模型中，通过编写前台可视化界面实现用户任意文件的上传下载功能，使用Java搭建后台服务端将文件包含内容提取并存储，支持文件格式有Word、Excel、Pdf等十余种；之后将文件内容清洗并按分隔符分割成一条条的语句，再根据实际的大语言模型训练场景需要将语句拼接为大小合适的段落；将段落的关键词提取出来并保存，使用Python搭建执行微调大语言模型的训练服务，接成完整报文推送给训练服务，执行具体的大语言模型训练工作。

技术关键词

大语言模型生成结构化数据数据处理服务端生成训练数据关键词可视化界面分词算法训练场景算法模型前台软件开发技术训练数据量分段语句接口数据格式数值标记

系统为您推荐了相关专利信息

一种基于大语言模型的电网知识库问答检索系统及方法

电网知识库问答检索系统故障案例库大语言模型关键词

一种基于人工智能的体育赛事内容综合处理方法

相关性分析模型指标灰色关联分析注意力机制文本

企业评估方法和装置、电子设备、计算机可读存储介质

多级指标体系企业评估方法词语矩阵层次分析法

一种基于大语言模型的智能试题生成方法

试题生成方法大语言模型答案文本工作流

一种故障日志处理方法、设备、程序产品及介质

独立冗余磁盘阵列系统事件日志分析日志数据错误日志

一种从文件中提取数据微调大语言模型的方法

站点导航

APP 下载