摘要
本发明公开了一种面向无标注数据场景的IP地址所有者行业分类系统,包括:IP地址域名反查模块,用于基于PTR记录和Passive DNS记录获取IP地址上部署的Web资产对应的域名;基于组织的行业分类模块,用于根据域名所有者的组织和IP地址所有者组织的一致性结果以及组织到行业的对应关系,并基于组织的行业分类算法识别域名所有者的组织确定IP地址所属的行业;基于网页的行业分类模块,用于基于网页的行业分类算法并根据网页文本对IP地址所属的行业进行行业分类,以得到行业分类结果。本发明通过深度分析所解决问题的实际情况以及各部分需求之间的关系,将大语言模型标注方法和带噪声学习的分类方法相结合,综合满足各项需求。
技术关键词
组织
网页文本分类
噪声数据
分类系统
数据训练神经网络
证书
行业分类方法
数据标签
长短期记忆网络
高斯混合模型
聚类
提示技术
识别模块
筛选算法