摘要
本发明涉及结合双重代码表征的补丁过拟合评估方法,属于互联网安全服务领域。本发明针对自动化补丁生成情况,首先构建缺陷代码片段、正确代码片段、补丁的CFG与AST,利用Word2Vec模型分别生成含结构信息、语义信息的嵌入向量;其次利用Transformer模型对AST嵌入向量、GAT模型对CFG嵌入向量进行编码,拼接得到特征向量;然后计算补丁和缺陷代码片段、正确代码片段的特征向量距离,训练生成二分类模型用于计算补丁过拟合置信度;最后依据代码变更度对该置信度加权,再与阈值比较判断是否过拟合。本发明针对现有方法中缺陷和正确代码片段的语义相似性高、代码变化程度大时易造成误判,增加代码CFG特征和计算代码变更度提升补丁过拟合评估的准确率。
技术关键词
Word2Vec模型
补丁
编码器
逻辑回归算法
二分类模型
机器学习模型
注意力
因子
语义
节点
元素
网络
数据
编辑
文本
序列
阶段
系统为您推荐了相关专利信息
排放预测方法
稀疏特征
拉普拉斯噪声
非线性
动态