摘要
本申请提供一种文件类型识别方法及装置,方法包括:获取待识别的目标文件;对目标文件进行采样,得到采样块,采样块中包含对目标文件的结构进行表征的信息;将采样块转换为文件向量;基于文件向量和提示模板,得到输入信息,提示模板用于采用提示学习方式激发大语言模型输出文件结构相关的知识;将输入信息输入大语言模型,得到目标文件的结构特征表示;将结构特征表示输入分类网络,得到目标文件的类型,其中,分类网络基于初始分类网络采用小样本数量的训练文件训练得到。小样本文件,按照采样、向量转换、增加提示模板、输入大语言模型以及输入分类网络的处理顺序,能够训练出精准的分类网络,目标文件按此也能够准确识别出文件类型。
技术关键词
大语言模型
分类网络
文件类型识别方法
多层感知机
文件类型识别装置
数据
模板
样本
对齐模块
注意力机制
电子设备
采样模块
存储器
自然语言
处理器
识别模块
可读存储介质
数值
程序