摘要
本发明涉及代码生成领域,具体为一种基于中文提示的代码生成模型训练方法,包括:利用人工智能AI生成中文提示代码数据集;由开源平台获取英文提示代码数据集,并对英文提示代码数据集中的数据进行清洗、去重操作;基于中文提示代码数据集和英文提示代码数据集生成训练数据集;采用QLoRA高效微调方法基于训练数据集对代码生成基模型进行微调,优化代码生成基模型在中文编程场景下的代码生成能力;利用训练数据集对微调后的代码基模型进行训练。解决当前代码生成领域中的中文提示代码数据集稀缺的难题,通过中文提示代码数据集提升代码基模型对中文提示理解能力,同时在不损害原模型代码生成准确率的基础上,还实现了准确率的进一步提升。
技术关键词
模型训练方法
生成训练数据
分析数据特征
清洗策略
微调方法
知识点
种子
平台
答案
核心
阶段
编程
场景
风格
冗余
文本
模板
基础
系统为您推荐了相关专利信息
日志数据处理方法
电机运行数据
手术机器人
日志数据处理装置
生成折线图