摘要
本发明属于智能软件工程的数据增强方法领域,尤其涉及一种基于AST抽象语法树同义替换的代码大模型等价数据增强方法。首先进行数据筛选和静态语法分析检查,之后通过AST抽象语法树提取其代码所含变量名、函数名、类名建立词库进行筛选,在此基础上采用四种等价替换方法进行数据增强,最终将其与原始数据合并,获得最后的增强代码数据集。本发明可用于自动增强代码大模型训练语料,以微调提升大语言模型在垂直领域的性能。
技术关键词
抽象语法树
数据
智能软件工程
卷积神经网络训练
大语言模型
同义词
自然语言
检查工具
种子
模板
英语
字母
字符
文本
规模
格式
逻辑
定义
工业
接口
系统为您推荐了相关专利信息
三维空间模型
分析方法
建筑外立面
建筑材料
许可
多层特征融合
轮廓分割方法
多尺度特征金字塔
解码器
卷积神经网络提取
生成方法
融合特征提取
计算机存储介质
风险评估模型
多标签分类算法
墙面检测方法
测距传感器
打磨机器人
压力传感器阵列
耦合结构