基于中文提示的代码生成模型训练方法

正文

推荐专利

基于中文提示的代码生成模型训练方法

申请号：CN202410894400

申请日期：2024-07-04

公开号：CN118860352A

公开日期：2024-10-29

类型：发明专利

摘要

本发明涉及代码生成领域，具体为一种基于中文提示的代码生成模型训练方法，包括：利用人工智能AI生成中文提示代码数据集；由开源平台获取英文提示代码数据集，并对英文提示代码数据集中的数据进行清洗、去重操作；基于中文提示代码数据集和英文提示代码数据集生成训练数据集；采用QLoRA高效微调方法基于训练数据集对代码生成基模型进行微调，优化代码生成基模型在中文编程场景下的代码生成能力；利用训练数据集对微调后的代码基模型进行训练。解决当前代码生成领域中的中文提示代码数据集稀缺的难题，通过中文提示代码数据集提升代码基模型对中文提示理解能力，同时在不损害原模型代码生成准确率的基础上，还实现了准确率的进一步提升。

技术关键词

模型训练方法生成训练数据分析数据特征清洗策略微调方法知识点种子平台答案核心阶段编程场景风格冗余文本模板基础

系统为您推荐了相关专利信息

模型训练方法和装置、能碳预测方法、设备和系统、介质

模型训练方法涂装车间能耗阶段预测误差

淤地坝溃坝风险评估方法、模型训练方法、设备和介质

淤地坝风险评估模型因子数据风险评估方法

一种手术日志数据处理方法、装置、电子设备及存储介质

日志数据处理方法电机运行数据手术机器人日志数据处理装置生成折线图

一种基于可分离混合低秩适应的持续视觉指令微调方法

微调方法视觉指令预训练模型矩阵

一种面向成果转化的多角色多任务指令微调大模型训练方法

多任务模型训练方法指令适配器科研

基于中文提示的代码生成模型训练方法

站点导航

APP 下载