摘要
本发明涉及自然语言处理技术领域,公开了一种模型微调数据集生成方法、装置、设备、介质及程序产品,模型微调数据集用于对预训练模型进行微调,首先接收用于对所述预训练模型进行微调的初始文件,对所述初始文件进行文本提取,并对提取到的文本内容进行分割,得到适应于所述文本内容的语义多个文本块,从而基于预先配置的提示词模板和所述多个文本块,生成适应于所述文本内容的提示词,进一步的,基于所述提示词,可以得到对所述预训练模型进行微调的微调数据集。有效避免人工对初始文件的内容进行提取和标注所带来的工作量,以及人工标注过程中因个体对文本的理解差异和主观性所带来的数据偏差。
技术关键词
预训练模型
生成方法
文本识别
格式
光学字符识别技术
编码
数据
应用程序编程接口
自然语言
语义
可读存储介质
指令
计算机程序产品
模板
存储器
生成装置
处理器
计算机设备
系统为您推荐了相关专利信息
大语言模型
机器可读程序
数据挖掘交叉技术
文本
适配器
数据接入配置方法
物联网感知终端
设备标识符
网络连接参数
服务器