一种基于指令微调的大语言模型训练数据生成方法及其系统

AITNT
正文
推荐专利
一种基于指令微调的大语言模型训练数据生成方法及其系统
申请号:CN202510170796
申请日期:2025-02-17
公开号:CN120046659A
公开日期:2025-05-27
类型:发明专利
摘要
本申请公开了一种基于指令微调的大语言模型训练数据生成方法,方法包括:通过代码预处理在原始数据集的模型响应部分提取代码片段;使用代码大语言模型对代码片段进行多次代码总结,得到与代码功能对应的多条自然语言指令;使用代码大语言模型评估总结的自然语言指令,判断是否与原始的代码片段匹配,并筛选出模型认为匹配程度最高的指令到代码,完成从代码到指令的生成,生成代码大语言模型的训练数据集。本发明方法及其系统显著地减少了在训练数据集生成过程中调用闭源模型产生的费用,且训练数据生成效率显著提高。
技术关键词
训练数据生成方法 大语言模型 自然语言 指令 训练数据生成系统 生成代码 处理器 指标 可读存储介质 存储器 标记 电子设备 模块 程序 计算机
系统为您推荐了相关专利信息
1
一种使用神经网络对图像进行编码并对码流进行解码的方法和装置
线性单元 超大规模 解码器 编码器 积层
2
模型训练和图像处理方法、装置、电子设备及存储介质
模型训练方法 图像处理方法 图像获取单元 电子设备 模型训练装置
3
一种在驾驶过程中规划变道路径的方法、装置及电子设备
环境感知信息 车道 终点 速度 规划
4
基于深度学习的自然语言转化结构查询语句语义解析方法
自然语言 语义解析方法 语句 模式 序列
5
路径确定方法、装置、设备及存储介质
通道 仓库 电子设备 机器人 可读存储介质
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号