摘要
本发明涉及代码相似性检测技术领域,公开了一种基于集成学习与程序切片的代码相似性动态检测方法,包括:生成各源代码的抽象语法树、原始代码属性图;获取各节点的语法、数据与控制信息,构建各源代码的扩展代码属性图;对扩展代码属性图进行程序切片,生成程序切片子图,并将其节点名称通过基于语义的自动映射方法进行标准化;然后将标准的程序切片子图输入图神经网络中捕获图特征,同时将抽象语法树输入Transformer编码器中提取序列特征;最后,将生成的两种特征进行融合集成并进行相似性检测任务;该方法实现了跨语言场景下的高精度代码分类与高效语义分析。
技术关键词
程序切片
动态检测方法
输出特征
抽象语法树
序列特征
程序依赖图
融合特征
编码器
注意力
语义向量
基准
前馈神经网络
自动映射方法
K均值聚类方法
编码向量
节点特征
语义特征提取
生成词库
系统为您推荐了相关专利信息
注意力
跟踪方法
搜索特征
联合特征提取
序列特征
语义特征
情感特征
序列特征
信息检测方法
融合特征