一种基于指令微调的大语言模型训练数据生成方法及其系统

AITNT
正文
推荐专利
一种基于指令微调的大语言模型训练数据生成方法及其系统
申请号:CN202510170796
申请日期:2025-02-17
公开号:CN120046659A
公开日期:2025-05-27
类型:发明专利
摘要
本申请公开了一种基于指令微调的大语言模型训练数据生成方法,方法包括:通过代码预处理在原始数据集的模型响应部分提取代码片段;使用代码大语言模型对代码片段进行多次代码总结,得到与代码功能对应的多条自然语言指令;使用代码大语言模型评估总结的自然语言指令,判断是否与原始的代码片段匹配,并筛选出模型认为匹配程度最高的指令到代码,完成从代码到指令的生成,生成代码大语言模型的训练数据集。本发明方法及其系统显著地减少了在训练数据集生成过程中调用闭源模型产生的费用,且训练数据生成效率显著提高。
技术关键词
训练数据生成方法 大语言模型 自然语言 指令 训练数据生成系统 生成代码 处理器 指标 可读存储介质 存储器 标记 电子设备 模块 程序 计算机
系统为您推荐了相关专利信息
1
一种基于动态智能合约的法治政府执法合规性评估方法
合规性 区块链平台 自然语言 动态 多模态
2
一种串联电弧故障的检测方法和计算机可读存储介质
串联电弧故障 搜索算法 时序 网络 电气系统
3
路径规划的方法、装置及存储介质
层级 路径规划算法 终点 路段 节点
4
车联网数据的分析方法、装置、电子设备及存储介质
语句 分析方法 数据 电子设备 车联网技术
5
供热机组的调节方法及系统
供热机组 调频模块 压力控制方式 流量控制方式 负荷
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号