摘要
本发明公开了一种基于多源信息的APT情报获取与分类系统及方法,所述系统包括多模态爬虫模块以及词频分类器模块;所述多模态爬虫模块,用于:接受预设的两类输入源:发起请求并下载资源,通过动态组装浏览器UA头及保活连接规避反爬策略;对响应内容执行异常处理、解码及URLs提取;所述词频分类器模块,用于:清洗爬虫输出的文本,移除无关信息并替换IOCs为标准化标签;基于专家标注的热词表及APT组织列表,通过多维度评分算法分类文档;输出威胁情报文档并丢弃无关内容。
技术关键词
分类系统
分类器
评分算法
爬虫
多模态
专家知识库
标签
解析单元
分类方法
处理单元
清洗单元
模块
文件哈希值
资源
文本
控制单元
处理器
标记单元
解码
组织
系统为您推荐了相关专利信息
室内机器人导航方法
多模态特征融合
语义特征
导航路径规划
图像
工单数据处理
决策树算法
朴素贝叶斯分类器
机器学习算法
数据一致性检查
朴素贝叶斯分类器
关键词
语义
频率
大数据分析技术
空间约束条件
错误检测方法
机器人
约束特征
多模态传感器