摘要
本公开属于核电技术领域,具体涉及一种基于大语言模型的漏洞信息识别方法及装置。本公开针对某些CVE的PoC信息进行收集,并对部分数据进行人工标注,以人工标注的方式增强了训练数据的准确可靠性,从而提高后续模型的学习能力。通过利用GPT‑3.5‑turbo模型对CVE和PoC数据进行识别和总结,基于TTP内容形式对每条信息进行描述,将CVE和PoC信息统一为TTP标准格式,剔除了原始信息中的噪音干扰,能够增强大语言模型对关键信息特征的识别和学习能力,并使用指令微调技术提高GPT模型完成任务效果。基于微调完成后的Llama‑2模型,对输入的目标CVE和PoC信息进行识别处理,并基于输出判别CVE和PoC的关联关系。从而解决CVE与PoC关联识别时依赖人工分析的问题。
技术关键词
大语言模型
信息识别方法
样本
信息识别装置
非易失性计算机可读存储介质
计算机程序指令
自然语言信息
漏洞
关系
带标签
数据收集模块
翻译语言
微调技术
指数
核电技术
数据处理模块
处理器
系统为您推荐了相关专利信息
数据存储对象
抽样算法
块加密算法
数据存储结构
强度
故障特征信息
网络状态信息
基站
情绪状态信息
指标