一种基于中间语言的源码二进制匹配方法

正文

推荐专利

一种基于中间语言的源码二进制匹配方法

申请号：CN202410966908

申请日期：2024-07-18

公开号：CN118885823A

公开日期：2024-11-01

类型：发明专利

摘要

本发明是一种基于中间语言的源码二进制匹配方法，检测对象是函数源码和与其对应的二进制函数。其核心是对源码使用预训练模型codebert分词并得到源码端的向量表示；使用Retdec反编译二进制程序并从中提取的大量IR语料对Bert模型进行预训练，设置三个任务：掩码语言模型、下一句预测、相邻块预测进行学习；对二进制程序使用Retdec工具转为LLVM IR，提取CFG，进行规范化，CFG中每个基本块的语句经过预训练之后的Bert模型转化为向量作为节点特征，通过GCN得到该函数的二进制端的向量表示；两端的向量通过triplet loss进行训练，并通过余弦函数计算得出两端的相似性。本方法能够实现跨架构和跨优化级别下的源码二进制匹配，为真实的源码与二进制相似性检测提供新的解决方案。

技术关键词

语句预训练模型节点特征程序分词标签指令语义特征变量计算机处理器可读存储介质模块关系存储器命令核心标记代表

系统为您推荐了相关专利信息

基于区块链的异常任务检测方法、电子设备及存储介质

分发器 LSTM模型数据实体发送方

学科知识图谱构建方法及相关装置

学科知识图谱语义向量度计算方法模块神经网络模型

基于AADL的形式化验证系统的方法、装置、设备及存储介质

AADL模型时间自动机模型验证系统检查技术时间自动机网络

应用于车联网路况分析的图像场景理解方法及系统

图像场景理解趋势预测模型路况潜在交互场景语义理解

一种张拉整体机器人的移动控制信号生成方法和装置

控制信号生成方法变量移动控制方法控制信号生成装置机器人控制技术

一种基于中间语言的源码二进制匹配方法

站点导航

APP 下载