摘要
本公开提供一种基于大模型多阶段微调的二进制代码反编译系统。分为2个阶段:第一阶段:数据集的获取和构建阶段,从开源项目和代码数据集中获取包括源代码和二进制文件对的源代码数据集,通过数据预处理过程,获得高质量的反编译数据集;第二阶段:基于大模型微调和静态分析进行反编译阶段,将反编译数据集进行编译后进行反编译,将反编译后得到的汇编代码与反编译数据集中的源代码进行对齐,用于对开源大模型微调,并协同函数调用图分析技术,获取程序上下文,得到最终的反编译大模型。从而实现提供高质量的反编译数据集和高效的反编译算法的目标。
技术关键词
多阶段
数据
开源项目
恶意代码分析
深度优先遍历
漏洞特征
大语言模型
重构算法
爬虫
节点
生成方法
机制
软件
程序
目录
层级
语义
索引