摘要
本申请公开了一种基于指令微调的大语言模型训练数据生成方法,方法包括:通过代码预处理在原始数据集的模型响应部分提取代码片段;使用代码大语言模型对代码片段进行多次代码总结,得到与代码功能对应的多条自然语言指令;使用代码大语言模型评估总结的自然语言指令,判断是否与原始的代码片段匹配,并筛选出模型认为匹配程度最高的指令到代码,完成从代码到指令的生成,生成代码大语言模型的训练数据集。本发明方法及其系统显著地减少了在训练数据集生成过程中调用闭源模型产生的费用,且训练数据生成效率显著提高。
技术关键词
训练数据生成方法
大语言模型
自然语言
指令
训练数据生成系统
生成代码
处理器
指标
可读存储介质
存储器
标记
电子设备
模块
程序
计算机
系统为您推荐了相关专利信息
供热机组
调频模块
压力控制方式
流量控制方式
负荷