模型微调数据集生成方法、装置、设备、介质及程序产品

AITNT
正文
推荐专利
模型微调数据集生成方法、装置、设备、介质及程序产品
申请号:CN202411914425
申请日期:2024-12-24
公开号:CN119849493A
公开日期:2025-04-18
类型:发明专利
摘要
本发明涉及自然语言处理技术领域,公开了一种模型微调数据集生成方法、装置、设备、介质及程序产品,模型微调数据集用于对预训练模型进行微调,首先接收用于对所述预训练模型进行微调的初始文件,对所述初始文件进行文本提取,并对提取到的文本内容进行分割,得到适应于所述文本内容的语义多个文本块,从而基于预先配置的提示词模板和所述多个文本块,生成适应于所述文本内容的提示词,进一步的,基于所述提示词,可以得到对所述预训练模型进行微调的微调数据集。有效避免人工对初始文件的内容进行提取和标注所带来的工作量,以及人工标注过程中因个体对文本的理解差异和主观性所带来的数据偏差。
技术关键词
预训练模型 生成方法 文本识别 格式 光学字符识别技术 编码 数据 应用程序编程接口 自然语言 语义 可读存储介质 指令 计算机程序产品 模板 存储器 生成装置 处理器 计算机设备
系统为您推荐了相关专利信息
1
视频生成方法、装置、电子设备
视频生成方法 动作特征 纹理 视频生成装置 图像
2
测试用例执行路径集生成方法、装置与电子设备
求解算法 生成方法 自然语言 路径优化算法 实体
3
桥接芯片、具有桥接芯片的存储装置及转换方法
桥接单元 存储单元 协议 主机设备 通信单元
4
一种结构化信息智能采集与处理方法及装置
大语言模型 机器可读程序 数据挖掘交叉技术 文本 适配器
5
一种基于物联网的感知终端数据接入配置方法及系统
数据接入配置方法 物联网感知终端 设备标识符 网络连接参数 服务器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号