摘要
本发明公开的属于代码相似度检测技术领域,具体为一种基于深度学习的代码相似度检测方法,包括具体步骤如下:收集代码,对代码进行预处理,其操作包括删除相应的注释内容、对变量名和函数名进行规范化处理、代码格式统一,将处理以后的代码进行任意的两两组合以及代码相似度评级得到一个三元组<代码A,代码B,相似度y>,所有三元组的集合构成一个代码数据集。本发明通过计算代码语法和语义特征的相似度来评估代码整体的相似度;在提取代码语法特征向量方面,在对语法树中每一个节点进行特征聚合时,考虑了该节点所处深度以及其兄弟节点的特征,避免了常规方法对树形结构进行聚合时的特征丢失。
技术关键词
度检测方法
语法特征
矩阵
GCN模型
语义特征
序列
三元组
生成代码
语义向量
网络
度检测技术
多尺度信息
邻居
树形结构
节点特征
注意力机制
输出特征