摘要
本发明公开了一种源代码表征提取方法,包括获取源代码数据集,并对数据集进行预处理;基于BERT模型和主成分分析技术PCA,分别对预处理后的数据集中代码行、代码构造进行特征提取,得到第一基本表征向量、第二基本表征向量;基于Multi‑way Tree‑LSTM模型,对代码行的抽象语法树子树特征进行直接提取,得到第三基本表征向量;基于GloVe词嵌入技术和GRU模型,对代码图结构的依赖关系上下文特征进行提取,得到第四基本表征向量、第五基本表征向量;利用注意力机制BiGRU,将得到的基本表征向量进行结合,获得源代码表征。因此,采用上述方法,能够全面地保留源代码中的多方面信息,有利于捕捉代码中存在的潜在漏洞。
技术关键词
上下文特征
程序依赖图
BERT模型
LSTM模型
主成分分析技术
注意力机制
数据依赖关系
代码切片
抽象语法树
切片技术
序列
漏洞
字符
指针
阶段
系统为您推荐了相关专利信息
差分隐私保护
光伏发电功率预测
数据收集模块
数据处理模块
LSTM模型
温度预测方法
LSTM算法
作物生长监测
LSTM模型
历史温度数据
意图识别方法
自然语言模型
融合特征
注意力机制
计算机可执行程序
混沌序列预测
分数阶混沌系统
气象预测方法
分数阶Lorenz系统
双曲正切函数