一种基于指令微调的大语言模型训练数据生成方法及其系统

正文

推荐专利

申请号：CN202510170796

申请日期：2025-02-17

公开号：CN120046659A

公开日期：2025-05-27

类型：发明专利

摘要

本申请公开了一种基于指令微调的大语言模型训练数据生成方法，方法包括：通过代码预处理在原始数据集的模型响应部分提取代码片段；使用代码大语言模型对代码片段进行多次代码总结，得到与代码功能对应的多条自然语言指令；使用代码大语言模型评估总结的自然语言指令，判断是否与原始的代码片段匹配，并筛选出模型认为匹配程度最高的指令到代码，完成从代码到指令的生成，生成代码大语言模型的训练数据集。本发明方法及其系统显著地减少了在训练数据集生成过程中调用闭源模型产生的费用，且训练数据生成效率显著提高。

技术关键词

训练数据生成方法大语言模型自然语言指令训练数据生成系统生成代码处理器指标可读存储介质存储器标记电子设备模块程序计算机

系统为您推荐了相关专利信息

一种使用神经网络对图像进行编码并对码流进行解码的方法和装置

线性单元超大规模解码器编码器积层

模型训练和图像处理方法、装置、电子设备及存储介质

模型训练方法图像处理方法图像获取单元电子设备模型训练装置

一种在驾驶过程中规划变道路径的方法、装置及电子设备

环境感知信息车道终点速度规划

基于深度学习的自然语言转化结构查询语句语义解析方法

自然语言语义解析方法语句模式序列

路径确定方法、装置、设备及存储介质

通道仓库电子设备机器人可读存储介质

一种基于指令微调的大语言模型训练数据生成方法及其系统

站点导航

APP 下载