摘要
本发明公开了一种自动持续采集网络数据微调大语言模型的方法,涉及软件开发技术领域,该自动持续采集网络数据微调大语言模型的方法,包括以下流程:所述度任务的创建与配置、基于搜索引擎的主题内容抓取、页面主体内容解析、固定地址的页面内容抓取、清洗内容数据、内容分句、分段组合、关键词的提取、构建训练服务、生成训练数据并推送、执行大语言模型训练,该自动持续采集网络数据微调大语言模型的方法,通过可视化操作使用户自由上传含有自定义内容的文件,再以自动化的处理、清洗、解析流程将自定义内容投喂给大语言模型中,使大语言模型的训练过程更加方便、简洁、易懂,减轻了专业技术人员操作大语言模型的训练流程。
技术关键词
大语言模型
页面内容抓取
生成结构化数据
数据处理服务端
生成训练数据
页面主体
关键词
自定义内容
主题
抓取页面信息
分词算法
算法模型
网络
软件开发技术
训练数据量
分段