摘要
本发明涉及用于信创适配的跨CPU架构二进制文件语义分割及实体识别方法,首先采用二进制文件段节分类模型把大的二进制文件进行识别和区域划分,解决大文件长序列的处理,然后采用类似Transformer技术,针对指令集,架构规范,CPU层面ABI规范以及底层ABI接口规范(libc,glibc,libc++,libstdc++等),ELF文件结构规范等信息通过大数据量进行模型训练,训练出Encoder模型,Encoder用于读入源CPU架构的ELF文件信息以及辅助信息,通过Encoder模型采集的二进制语义信息进行二进制文件的语义标注和实体识别。
技术关键词
实体识别方法
语义
数据
训练语料库
操作系统
格式
分词
字符
文本
模块
变量
标签
编码
矩阵
序列
接口
系统为您推荐了相关专利信息
局部波动特征
充电状态数据
退化特征
车辆电池
粒子滤波算法
环境监测数据
传输路径
区域环境污染
预警模型
预警方法
识别模型训练方法
模型预测值
地震数据集
标签
三维地震数据体