摘要
本发明涉及一种基于文本的软件源代码多级特征生成方法,属于软件代码重用检测技术领域。本发明通过哈希算法计算文件和有效代码哈希值,形成文件指纹和代码指纹,用于文件或代码级的代码重用检测,检测效率高、检测结果精准;通过哈希算法计算有效代码哈希值,形成代码指纹,用于代码级别的代码重用检测,消除了代码重用过程中增加或删除注释、空格、制表符、回车、换行代码等修改代码方式对代码重用检测的影响,提高了代码重用检测的检出率;通过哈希算法计算文件、有效代码、代码块特征,将内容复杂的软件源代码转换成一组固定长度的哈希值,提高了代码重用检测的效率,实现了大规模数据场景下高效的代码重用检测。
技术关键词
哈希算法
指纹
软件
多级特征
对源代码
生成方法
文本
分块
对象
基础
字符
变量
场景
数据
系统为您推荐了相关专利信息
隐式认证方法
序列比对算法
键盘输入特征
高斯混合模型
信息熵
导管螺旋桨
优化设计方法
样本
桨叶表面
拉丁超立方采样