一种自动持续采集网络数据微调大语言模型的方法

正文

推荐专利

申请号：CN202410780041

申请日期：2024-06-17

公开号：CN118673200A

公开日期：2024-09-20

类型：发明专利

摘要

本发明公开了一种自动持续采集网络数据微调大语言模型的方法，涉及软件开发技术领域，该自动持续采集网络数据微调大语言模型的方法，包括以下流程：所述度任务的创建与配置、基于搜索引擎的主题内容抓取、页面主体内容解析、固定地址的页面内容抓取、清洗内容数据、内容分句、分段组合、关键词的提取、构建训练服务、生成训练数据并推送、执行大语言模型训练，该自动持续采集网络数据微调大语言模型的方法，通过可视化操作使用户自由上传含有自定义内容的文件，再以自动化的处理、清洗、解析流程将自定义内容投喂给大语言模型中，使大语言模型的训练过程更加方便、简洁、易懂，减轻了专业技术人员操作大语言模型的训练流程。

技术关键词

大语言模型页面内容抓取生成结构化数据数据处理服务端生成训练数据页面主体关键词自定义内容主题抓取页面信息分词算法算法模型网络软件开发技术训练数据量分段

一种自动持续采集网络数据微调大语言模型的方法

站点导航

APP 下载