摘要
本发明涉及互联网安全技术领域,特别涉及一种基于Transformer语言模型的源代码漏洞检测方法及系统,获取代码样本数据,并对代码样本数据中的漏洞类型标注类别标签,以构建漏洞检测样本数据集;构建多分类CodeBERT模型,并利用漏洞检测样本数据集对多分类CodeBERT模型进行训练,将训练后的多分类CodeBERT模型作为漏洞检测目标模型,其中,所述多分类CodeBERT模型基于RoBERTa分词器和Transformer语言模型构建;将待检测的源代码输入至漏洞检测目标模型中,利用漏洞检测目标模型识别并输出待检测源代码中的漏洞类别。本发明能够充分考虑源代码的深层语义、结构、语法特征,利用微调后的模型较好的标源代码漏洞挖掘检测,在软件安全领域具有较好的应用前景。
技术关键词
样本
数据
模型训练模块
互联网安全技术
标签
漏洞检测系统
生成自然语言
标记
序列
语法特征
可读存储介质
生成代码
语义
注意力机制
输出特征
策略
处理器
系统为您推荐了相关专利信息
板件组合
入库方法
打印图像数据
家具板件
电子标签
地图数据处理方法
曲线
频率
高精地图数据
地图数据处理装置
绿色能源交易
数据监控系统
市场动态
决策树模型
代表
事件检测方法
地震
生成算法
语义分割模型
置信度阈值