模型微调数据集生成方法、装置、设备、介质及程序产品

正文

推荐专利

申请号：CN202411914425

申请日期：2024-12-24

公开号：CN119849493A

公开日期：2025-04-18

类型：发明专利

摘要

本发明涉及自然语言处理技术领域，公开了一种模型微调数据集生成方法、装置、设备、介质及程序产品，模型微调数据集用于对预训练模型进行微调，首先接收用于对所述预训练模型进行微调的初始文件，对所述初始文件进行文本提取，并对提取到的文本内容进行分割，得到适应于所述文本内容的语义多个文本块，从而基于预先配置的提示词模板和所述多个文本块，生成适应于所述文本内容的提示词，进一步的，基于所述提示词，可以得到对所述预训练模型进行微调的微调数据集。有效避免人工对初始文件的内容进行提取和标注所带来的工作量，以及人工标注过程中因个体对文本的理解差异和主观性所带来的数据偏差。

技术关键词

预训练模型生成方法文本识别格式光学字符识别技术编码数据应用程序编程接口自然语言语义可读存储介质指令计算机程序产品模板存储器生成装置处理器计算机设备

系统为您推荐了相关专利信息

视频生成方法、装置、电子设备

视频生成方法动作特征纹理视频生成装置图像

测试用例执行路径集生成方法、装置与电子设备

求解算法生成方法自然语言路径优化算法实体

桥接芯片、具有桥接芯片的存储装置及转换方法

桥接单元存储单元协议主机设备通信单元

一种结构化信息智能采集与处理方法及装置

大语言模型机器可读程序数据挖掘交叉技术文本适配器

一种基于物联网的感知终端数据接入配置方法及系统

数据接入配置方法物联网感知终端设备标识符网络连接参数服务器

模型微调数据集生成方法、装置、设备、介质及程序产品

站点导航

APP 下载