摘要
本申请公开了一种面向低代码开发的大模型训练方法、系统、设备及介质,主要涉及大模型训练技术领域,用以解决现有方案无法有效捕捉代码中的语法层次关系和块结构、在处理具有复杂作用域的代码时容易导致变量误引用和作用域错误、现有的微调方法忽视模型的预训练知识,导致训练过程不稳定,且收敛速度较慢的问题。包括:将token序列的输入数据、输出代码对应的抽象语法树、层次化代码序列作为样本数据,构建训练集;将训练集中的样本数据对应的样本代码进行数据增强操作;解冻编码器的自注意力层参数,设置输入数据与代码序列的对齐损失函数为目标函数;完成自注意力层参数调整后,解冻解码器全部参数,并采用对抗性损失,进行大模型的调整。
技术关键词
模型训练方法
抽象语法树
解码器
注意力
对抗性
掩码矩阵
序列
构建训练集
非易失性计算机存储介质
样本
参数
数据
编码器
Softmax函数
模型训练设备
模型训练技术
编码向量
模型训练系统
深度优先遍历