摘要
本发明公开了一种从文件中提取数据微调大语言模型的方法,涉及软件开发技术领域,一种从文件中提取数据微调大语言模型的方法,此方法使得用户在前台可视化界面上传文件,后台服务端自动将文件的内容提取并生成训练数据推送至大语言模型中,通过编写前台可视化界面实现用户任意文件的上传下载功能,使用Java搭建后台服务端将文件包含内容提取并存储,支持文件格式有Word、Excel、Pdf等十余种;之后将文件内容清洗并按分隔符分割成一条条的语句,再根据实际的大语言模型训练场景需要将语句拼接为大小合适的段落;将段落的关键词提取出来并保存,使用Python搭建执行微调大语言模型的训练服务,接成完整报文推送给训练服务,执行具体的大语言模型训练工作。
技术关键词
大语言模型
生成结构化数据
数据处理服务端
生成训练数据
关键词
可视化界面
分词算法
训练场景
算法模型
前台
软件开发技术
训练数据量
分段
语句
接口
数据格式
数值
标记
系统为您推荐了相关专利信息
电网知识库
问答检索系统
故障案例库
大语言模型
关键词
相关性分析模型
指标
灰色关联分析
注意力机制
文本
多级指标体系
企业评估方法
词语
矩阵
层次分析法
独立冗余磁盘阵列
系统事件日志
分析日志
数据
错误日志