一种从文件中提取数据微调大语言模型的方法

AITNT
正文
推荐专利
一种从文件中提取数据微调大语言模型的方法
申请号:CN202410740264
申请日期:2024-06-07
公开号:CN118585497A
公开日期:2024-09-03
类型:发明专利
摘要
本发明公开了一种从文件中提取数据微调大语言模型的方法,涉及软件开发技术领域,一种从文件中提取数据微调大语言模型的方法,此方法使得用户在前台可视化界面上传文件,后台服务端自动将文件的内容提取并生成训练数据推送至大语言模型中,通过编写前台可视化界面实现用户任意文件的上传下载功能,使用Java搭建后台服务端将文件包含内容提取并存储,支持文件格式有Word、Excel、Pdf等十余种;之后将文件内容清洗并按分隔符分割成一条条的语句,再根据实际的大语言模型训练场景需要将语句拼接为大小合适的段落;将段落的关键词提取出来并保存,使用Python搭建执行微调大语言模型的训练服务,接成完整报文推送给训练服务,执行具体的大语言模型训练工作。
技术关键词
大语言模型 生成结构化数据 数据处理服务端 生成训练数据 关键词 可视化界面 分词算法 训练场景 算法模型 前台 软件开发技术 训练数据量 分段 语句 接口 数据格式 数值 标记
系统为您推荐了相关专利信息
1
一种基于大语言模型的电网知识库问答检索系统及方法
电网知识库 问答检索系统 故障案例库 大语言模型 关键词
2
一种基于人工智能的体育赛事内容综合处理方法
相关性分析模型 指标 灰色关联分析 注意力机制 文本
3
企业评估方法和装置、电子设备、计算机可读存储介质
多级指标体系 企业评估方法 词语 矩阵 层次分析法
4
一种基于大语言模型的智能试题生成方法
试题生成方法 大语言模型 答案 文本 工作流
5
一种故障日志处理方法、设备、程序产品及介质
独立冗余磁盘阵列 系统事件日志 分析日志 数据 错误日志
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号