摘要
本公开涉及计算机技术领域,包括用于训练代码生成模型的方法、装置、及存储介质。通过从多个原始代码片段中筛选出符合预设的筛选条件的多个代码片段,并将每个代码片段作为每条纯代码数据,组成纯代码数据集;利用大模型生成预设的多种题型的多段编程问题文本和相应的答案代码,将每段编程问题文本和相应的答案代码作为每条文本代码数据,组成文本代码数据集;将纯代码数据集与文本代码数据集混合,基于得到的混合数据集生成训练样本集;利用训练样本集对代码生成模型进行训练,使得代码生成模型能够根据代码片段的一部分或编程问题文本生成完整的代码片段,优化了代码生成模型的训练数据,从而提高模型的代码生成能力。
技术关键词
文本
编程
生成训练样本
答案
数据
字符
种子
训练样本集
计算机程序产品
处理器
序列
可读存储介质
存储器
标记
算法