摘要
本发明公开了一种基于执行语义的代码相似性检测方法,采用端到端的模拟执行机制,引导模型通过指令的动态执行行为建模指令,从而深入理解和分析代码的语义内涵,提取具有执行语义特征的表示;利用逆向分析工具对二进制程序进行反汇编与控制流图构建,并对基本块内的汇编指令进行统计与标准化处理,以筛选出具有语义代表性的关键指令;再采用Transformer模型模拟指令的执行过程,分析和捕捉指令在特定上下文中的语义行为,进而生成具有执行语义信息的指令嵌入表示;最后,借助图匹配神经网络对控制流图中节点的结构信息进行建模,融合基本块间的执行语义,构建函数级的表示,并通过余弦距离实现精确的相似性度量。
技术关键词
代码相似性检测方法
指令
语义特征
代码转换
度量
分析工具
频率
定义
优化器
格式化
超参数
鲁棒性
特征值
编码
代表
节点
序列
漏洞
程序
系统为您推荐了相关专利信息
集成时钟门控单元
集成电路模块
布局布线方法
缓冲器
数据接口
大语言模型
样本生成方法
种子
深度神经网络
过滤器
语义特征提取
跨模态
样本
门控神经网络
遥感图像数据